背景
问答系统(QA)是机器学习中预测问题答案的任务。例如问题"娜塔莉·波特曼出生在哪里?",模型可回答"耶路撒冷"。这属于简单问题,仅需单一事实即可解答。但诸如"《泰坦尼克号》和《黑衣人2》哪部电影预算更高?“等复杂问题,需检索多个事实并进行比较计算。
数据集特性
现有QA数据集存在三大局限:
- 规模大但问题简单
- 问题复杂但规模小
- 自动生成的复杂问题不够自然
Mintaka数据集突破这些限制:
- 规模:包含20,000条问题
- 复杂度:定义8类复杂问题(计数/比较/最高级/序数/多跳/交集/差异/是非)
- 多语言:专业翻译为阿拉伯语、法语等8种语言
- 知识关联:实体链接至Wikidata知识图谱
构建方法
通过众包平台采集问题,要求工作者撰写需以下操作的复杂问题:
|
|
评估结果
- 自然度测试:在1-5分制中,Mintaka得分显著高于KQA Pro等对比数据集
- 基线模型:T5模型表现最佳,但准确率仅38%,证明数据集具有挑战性
技术价值
该数据集填补了复杂、自然、多语言QA数据的空白,为改进以下技术提供基准:
- 多事实检索算法
- 跨语言问答系统
- 知识图谱关联方法
数据集已公开,推动问答系统处理更复杂的多语言问题。