表格数据问答模型的挑战
问答模型在处理表格数据时面临独特挑战,因为表格语义结构与自由文本截然不同。传统方法主要提取单个单元格内容作为答案,但复杂问题往往需要结合上下文生成完整句子回答。
GenTaP模型创新
-
双目标预训练架构
- 同时优化长句式答案生成和单单元格答案提取
- 编码器-解码器结构配备两个独立解码器
- 预训练数据通过自动化流程生成:
- 从含表格的网页文档提取关联句子
- 使用逆向阅读理解模型生成问题-答案对
- 设计语法模板生成单单元格问答对
-
数据增强技术
- 完全无需人工标注的合成数据生成
- 长句式训练样本提升回答连贯性
- 短句式训练样本增强事实准确性
实验结果
在AAAI 2022公布的测试中:
- 全面领先:BLEU指标提升14%,ROUGE系列指标提升5-10%
- 零样本学习:未经微调的预训练模型性能已超越小型T5基准
- 跨任务适配:在50-500样本的领域特定句子生成任务中优于GPT基准
技术实现细节
- 输入处理:表格转换为特殊字符分隔的字符串与问题拼接
- 评估指标:综合BLEU/ROUGE/METEOR多维度评估
- 消融实验证实双目标缺一不可,移除短句式目标会导致性能下降
该方法为结合结构化数据与自然语言生成提供了新范式,相关论文《Generation-focused table-based intermediate pre-training for free-form question answering》已在AAAI 2022发表。