研究背景
极端多标签分类(XMC)指在数百万级标签空间中为输入内容分配相关标签的任务。传统方法采用概率计算方式,而本研究创新性地将其转化为序列生成问题,利用大型语言模型的生成能力。
技术方法
-
标签聚类架构
- 使用预训练模型生成标签嵌入向量,通过k-means算法构建语义聚类
- 提出两种引导方式:
- XLGen-BCL:将聚类信息编码为比特向量直接输入模型
- XLGen-MCG:采用多任务学习同时预测聚类编号和标签
-
模型选择
基于T5编码器-解码器架构,利用双向上下文理解优势处理整体文档语义。
实验结果
在四个基准数据集上的测试表明:
- 聚类引导模型在6/8实验中全面超越传统分类器
- 对训练集中出现≤1次的罕见标签(长尾标签),XLGen-MCG的F1值提升显著
- 在50%标签缺失的PU数据场景下,生成式方法展现出更强鲁棒性
性能指标
评估类型 | 优势模型 | 提升幅度 |
---|---|---|
宏观F1平均值 | XLGen-MCG | +15% |
长尾标签识别 | XLGen-BCL | +22% |
PU数据场景 | 生成式基线 | +35% |
应用价值
该方法可应用于:
- 大规模文档标签系统
- 电商产品自动归类
- 知识图谱构建
研究论文已发表于EACL 2023会议,相关代码框架已开源。