数据集构建背景
问答系统(QA)是机器学习中预测问题答案的任务。现有数据集存在三大局限:规模大但问题简单、问题复杂但规模小,或通过合成生成缺乏自然性。多数数据集仅支持英语,难以满足多语言复杂问答需求。
Mintaka数据集特性
- 规模与语言:包含20,000条英语原始问题,专业翻译为阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语
- 复杂性定义:需超越单事实检索的操作,包含8类复杂问题:
- 计数(如"有多少宇航员入选国会?")
- 比较(如"《泰坦尼克号》与《黑衣人II》哪部预算更高?")
- 最高级(如"《饥饿游戏》最年轻的贡品是谁?")
- 序数(如"埃及最后一位托勒密统治者是谁?")
- 多跳推理(如"赢得第50届超级碗的四分卫是谁?")
- 交集查询(如"丹尼斯·维伦纽瓦导演且提莫西·查拉梅主演的电影?")
- 差异查询(如"哪款马里奥赛车游戏没有耀西角色?")
- 是非判断(如"Lady Gaga与Ariana Grande合作过吗?")
- 知识 grounding:所有实体链接至Wikidata知识图谱节点
- 领域覆盖:电影、音乐、体育、书籍、地理、政治、视频游戏和历史八大类别
数据采集方法
通过众包平台采集自然问题,设计两阶段标注流程:
- 问题生成阶段:要求工作者编写需复杂操作的问答对
- 实体链接阶段:标注问答中的实体并关联Wikipedia证据源
技术评估结果
- 自然度评估:在1(最不自然)到5(最自然)的评分中,Mintaka平均自然度显著高于KQA Pro、ComplexWebQuestions、DROP和ComplexQuestions数据集
- 基线模型表现:最佳模型T5在Closed Book QA任务中仅达到38%的hits@1准确率,证明数据集具有挑战性
- 多语言支持:提供完整的跨语言评估基准
技术意义
该数据集填补了复杂问答领域四大空白:大规模、高复杂性、自然生成和多语言支持。通过公开发布,推动问答模型处理多语言复杂问题的技术发展。
相关技术资源已发布于某中心研究平台,包含完整数据集与基准代码。