改进基于表格数据的问答模型

新型预训练方法在五项不同评估指标上实现5%至14%的提升。

研究背景

问答（QA）模型有时需要从表格中检索信息，这与自由文本使用的语义线索完全不同。历史上，基于表格的问答研究主要集中在提取单个表格单元格内容作为问题答案。但有时提问者需要更多上下文来理解答案，因此近期研究开始探索将表格数据嵌入句子或句子序列的可能性。

目前最成功的模型是端到端神经模型，它以问题和表格作为输入，输出问题的自由形式答案。在某人工智能进展协会（AAAI）会议上，提出了一种新的基于表格的自由形式问答模型训练方法：在真实QA数据集上微调之前，先使用合成数据对模型进行预训练。该模型被命名为GenTaP（生成导向的表格中间预训练）。

模型同时针对两个目标进行预训练：

通过自动生成合成训练数据实现高效预训练：

使用简单语法规则生成单单元格值答案：

在预训练中使用等量的长格式和短格式示例，长格式目标提高输出连贯性，短格式目标提高事实准确性。

采用编码器-解码器结构，配备两个解码器分别处理两种输出目标。

使用五项评估指标：

在基于表格数据生成领域特定句子（非问答）任务中，使用50-500个训练样本时，该模型优于基于GPT语言模型的两个基准，表明该方法具有良好的迁移适应性。

搜索与信息检索、对话式AI

问答系统、多任务学习、AAAI、表格数据

相关会议：AAAI 2022
相关论文：面向自由形式问答的生成导向表格中间预训练