多语言复杂问答数据集Mintaka发布

某中心发布Mintaka数据集,包含2万条需多事实检索与比较的复杂问题,涵盖8种语言,基于Wikidata知识图谱构建,为问答模型训练提供新基准。

背景

问答系统(QA)是机器学习中预测问题答案的任务。例如问题"娜塔莉·波特曼出生在哪里?",模型可回答"耶路撒冷"。这属于简单问题,仅需单一事实即可解答。但诸如"《泰坦尼克号》和《黑衣人2》哪部电影预算更高?“等复杂问题,需检索多个事实并进行比较计算。

数据集特性

现有QA数据集存在三大局限:

  1. 规模大但问题简单
  2. 问题复杂但规模小
  3. 自动生成的复杂问题不够自然

Mintaka数据集突破这些限制:

  • 规模:包含20,000条问题
  • 复杂度:定义8类复杂问题(计数/比较/最高级/序数/多跳/交集/差异/是非)
  • 多语言:专业翻译为阿拉伯语、法语等8种语言
  • 知识关联:实体链接至Wikidata知识图谱

构建方法

通过众包平台采集问题,要求工作者撰写需以下操作的复杂问题:

1
2
3
1. 计数类(如:有多少宇航员当选过国会议员?)
2. 比较类(如:勃朗峰比雷尼尔山高吗?)
3. 多跳推理(如:赢得第50届超级碗的四分卫是谁?)

评估结果

  • 自然度测试:在1-5分制中,Mintaka得分显著高于KQA Pro等对比数据集
  • 基线模型:T5模型表现最佳,但准确率仅38%,证明数据集具有挑战性

技术价值

该数据集填补了复杂、自然、多语言QA数据的空白,为改进以下技术提供基准:

  • 多事实检索算法
  • 跨语言问答系统
  • 知识图谱关联方法

数据集已公开,推动问答系统处理更复杂的多语言问题。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计