生成式AI改进极端多标签分类技术

本文探讨了利用生成式AI提升极端多标签分类性能的创新方法,通过语义聚类引导标签生成,显著改善了长尾标签的识别准确率。研究对比了两种聚类引导架构与传统分类器的效果,并在多个数据集上验证了其优越性。

研究背景

极端多标签分类(XMC)指在数百万级标签空间中为输入内容分配相关标签的任务。传统方法采用概率计算方式,而本研究创新性地将其转化为序列生成问题,利用大型语言模型的生成能力。

技术方法

  1. 标签聚类架构

    • 使用预训练模型生成标签嵌入向量,通过k-means算法构建语义聚类
    • 提出两种引导方式:
      • XLGen-BCL:将聚类信息编码为比特向量直接输入模型
      • XLGen-MCG:采用多任务学习同时预测聚类编号和标签
  2. 模型选择
    基于T5编码器-解码器架构,利用双向上下文理解优势处理整体文档语义。

实验结果

在四个基准数据集上的测试表明:

  • 聚类引导模型在6/8实验中全面超越传统分类器
  • 对训练集中出现≤1次的罕见标签(长尾标签),XLGen-MCG的F1值提升显著
  • 在50%标签缺失的PU数据场景下,生成式方法展现出更强鲁棒性

性能指标

评估类型 优势模型 提升幅度
宏观F1平均值 XLGen-MCG +15%
长尾标签识别 XLGen-BCL +22%
PU数据场景 生成式基线 +35%

应用价值

该方法可应用于:

  • 大规模文档标签系统
  • 电商产品自动归类
  • 知识图谱构建

研究论文已发表于EACL 2023会议,相关代码框架已开源。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计