基于表格数据的问答模型优化技术

介绍一种新型的表格数据问答模型预训练方法GenTaP,通过合成数据预训练和双目标优化,在BLEU等五项指标上实现5%-14%的性能提升,显著优于现有T5和BART基准模型。

表格数据问答模型的挑战

问答模型在处理表格数据时面临独特挑战,因为表格语义结构与自由文本截然不同。传统方法主要提取单个单元格内容作为答案,但复杂问题往往需要结合上下文生成完整句子回答。

GenTaP模型创新

  1. 双目标预训练架构

    • 同时优化长句式答案生成和单单元格答案提取
    • 编码器-解码器结构配备两个独立解码器
    • 预训练数据通过自动化流程生成:
      • 从含表格的网页文档提取关联句子
      • 使用逆向阅读理解模型生成问题-答案对
      • 设计语法模板生成单单元格问答对
  2. 数据增强技术

    • 完全无需人工标注的合成数据生成
    • 长句式训练样本提升回答连贯性
    • 短句式训练样本增强事实准确性

实验结果

在AAAI 2022公布的测试中:

  • 全面领先:BLEU指标提升14%,ROUGE系列指标提升5-10%
  • 零样本学习:未经微调的预训练模型性能已超越小型T5基准
  • 跨任务适配:在50-500样本的领域特定句子生成任务中优于GPT基准

技术实现细节

  1. 输入处理:表格转换为特殊字符分隔的字符串与问题拼接
  2. 评估指标:综合BLEU/ROUGE/METEOR多维度评估
  3. 消融实验证实双目标缺一不可,移除短句式目标会导致性能下降

该方法为结合结构化数据与自然语言生成提供了新范式,相关论文《Generation-focused table-based intermediate pre-training for free-form question answering》已在AAAI 2022发表。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计