改进基于表格数据的问答模型
新型预训练方法在五项不同评估指标上实现5%至14%的提升。
研究背景
问答(QA)模型有时需要从表格中检索信息,这与自由文本使用的语义线索完全不同。历史上,基于表格的问答研究主要集中在提取单个表格单元格内容作为问题答案。但有时提问者需要更多上下文来理解答案,因此近期研究开始探索将表格数据嵌入句子或句子序列的可能性。
目前最成功的模型是端到端神经模型,它以问题和表格作为输入,输出问题的自由形式答案。在某人工智能进展协会(AAAI)会议上,提出了一种新的基于表格的自由形式问答模型训练方法:在真实QA数据集上微调之前,先使用合成数据对模型进行预训练。该模型被命名为GenTaP(生成导向的表格中间预训练)。
方法创新
双目标预训练
模型同时针对两个目标进行预训练:
- 生成句子式的问题答案
- 提取单个表格单元格的答案(通常是名称或数字)
自动数据生成
通过自动生成合成训练数据实现高效预训练:
- 从包含表格的在线文档中提取至少包含两个同行单元格值的句子
- 使用独立的机器学习模型将句子转换为问题
- 生成数据三元组:表格、问题、答案
语法规则应用
使用简单语法规则生成单单元格值答案:
- 通过随机采样表格中的列和值
- 使用预定义的短语和句子模板生成新句子
在预训练中使用等量的长格式和短格式示例,长格式目标提高输出连贯性,短格式目标提高事实准确性。
模型架构
采用编码器-解码器结构,配备两个解码器分别处理两种输出目标。
实验结果
评估指标
使用五项评估指标:
- BLEU:测量模型输出与目标输出的重叠度
- ROUGE(1/2/L):测量短语级别重叠度
- METEOR:考虑同义词和共享词根评估句子匹配
性能表现
- 在所有指标上均表现最佳
- BLEU分数比第二名模型(基于BART)提升14%
- 其他四项指标提升5%-10%
- 零样本实验表现优于基于T5小版本的基准模型
扩展应用
在基于表格数据生成领域特定句子(非问答)任务中,使用50-500个训练样本时,该模型优于基于GPT语言模型的两个基准,表明该方法具有良好的迁移适应性。
研究领域
搜索与信息检索、对话式AI
技术标签
问答系统、多任务学习、AAAI、表格数据
相关会议:AAAI 2022
相关论文:面向自由形式问答的生成导向表格中间预训练