极端多标签分类技术新突破

本文介绍了两项在极端多标签分类领域的重要研究,包括标签解纠缠方法和多分辨率Transformer微调技术,显著提升了分类准确率并大幅减少训练时间,在多个基准测试中取得最优性能。

极端多标签分类的新进展

在神经信息处理系统大会(NeurIPS)上发表的两篇论文探讨了将同一标签分配给多个类别的方法,以及基于Transformer模型的快速训练技术。

标签解纠缠研究

某中心的XMC框架PECOS通过标签分区提高效率:首先将标签分组为簇,训练匹配模型将输入分配给簇,然后训练排序器从指定组中选择单个标签。

在基于分区的极端多标签分类中,研究团队考虑了同一标签属于多个簇的情况。例如,“苹果"标签可能同时属于计算设备簇和水果簇。研究展示了一种将标签分配给多个簇的方法,在几乎不影响效率的情况下提高了分类准确率。

该方法首先使用TF-IDF创建临时层次树,然后训练匹配模型,并基于该模型重新分配标签以最大化分类准确率。实验显示,在四个数据集的六项指标对比中,该方法在21项指标中获得最高分,两项获得第二名。

多分辨率Transformer微调

研究团队结合递归线性匹配模型XR-linear和基于Transformer的匹配方法X-Transformer,创建了XR-Transformer递归匹配器。

在标准基准测试中,训练X-Transformer匹配器需要23天(8个GPU),而训练XR-Transformer匹配器仅需29小时,且准确率显著提高。

训练过程从基于TF-IDF特征的层次标签树开始,为树的每一层联合训练基于Transformer的编码器和线性排序器。编码器训练完成后,使用拼接的特征训练新的线性排序器。

在六个公共数据集上的测试表明,在包含4000-31000标签的数据集上,XR-Transformer在九项指标中的五项获得最高分;在包含50万以上标签的数据集上,所有指标均显著领先。

技术特点

  • 多簇标签分配:允许标签同时属于多个簇
  • 层次树学习:以监督方式从数据中学习层次树结构
  • 联合训练:同时训练Transformer编码器和线性排序器
  • 特征融合:结合Transformer嵌入和TF-IDF特征

这些方法在保持效率的同时显著提升了极端多标签分类任务的性能,为处理大规模标签空间提供了新的技术方案。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计