利用生成式AI改进极端多标签分类
研究背景
极端多标签分类(XMC)是指在分类类别空间极大(例如百万级标签)时对输入进行分类的任务。以往研究采用经典分类方法,模型为空间中的每个标签计算概率。而最新研究将XMC视为生成式问题:对于每个输入词序列,模型生成标签的输出序列,从而利用大语言模型完成XMC任务。
技术挑战
无论是经典方法还是生成方法,XMC的主要困难在于:大部分标签属于训练数据中示例稀少的长尾分布。以往工作通过层次化组织标签空间来解决该问题:先进行粗粒度分类,然后通过层次树逐步细化分类,最终得到语义相关概念的聚类。这有助于模型从相关但标签不同的示例中学习通用分类原则,并降低模型完全错标的风险。
创新方法
研究提出了两种聚类引导的生成方法:
XLGen-BCL架构
将文本的真实标签聚类表示为比特数组中的"1"值(其他聚类为"0")。训练时该数组作为附加输入传递给模型,而推理时仅接收文本输入。
XLGen-MCG架构
为聚类分配编号,模型通过多任务目标进行训练:同时学习将聚类编号映射到标签,以及将文本映射到聚类编号。推理时模型先为文本分配聚类编号集,再将聚类编号映射到标签。
技术实现
- 基线模型:采用T5语言模型(编码器-解码器结构),使用双向编码方式,适合需要整体文档表征的场景
- 聚类生成:使用预训练模型为训练集中每个文档生成词嵌入,通过k-means聚类组织标签
- 评估指标:使用F1分数评估整体性能,采用宏平均和微平均两种方式;针对长尾标签评估训练数据中出现一次或零次的标签
实验结果
在四个数据集上的测试表明:
- 聚类引导的生成模型整体优于传统分类器
- 八项实验中有六项至少一种聚类引导模型匹配或超越基线生成模型
- 在长尾标签实验中,至少一种聚类引导模型优于生成基线
- 在正未标记(PU)数据实验中,生成模型显著优于传统分类器,XLGen-MCG模型明显超越生成基线
意义与应用
该方法为处理极端多标签分类中的长尾分布问题提供了新思路,通过生成式AI与聚类技术的结合,显著提升了罕见标签的分类准确性,对大规模文本分类任务具有重要实用价值。