多语言复杂问答数据集技术解析

某中心发布Mintaka多语言复杂问答数据集,包含2万条需多事实检索与比较的问题,覆盖8种语言并基于Wikidata知识图谱构建,为问答模型训练提供更自然的复杂问题基准。

数据集构建背景

问答系统(QA)是机器学习中预测问题答案的任务。现有数据集存在三大局限:规模大但问题简单、问题复杂但规模小,或通过合成生成缺乏自然性。多数数据集仅支持英语,难以满足多语言复杂问答需求。

Mintaka数据集特性

  • 规模与语言:包含20,000条英语原始问题,专业翻译为阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语
  • 复杂性定义:需超越单事实检索的操作,包含8类复杂问题:
    • 计数(如"有多少宇航员入选国会?")
    • 比较(如"《泰坦尼克号》与《黑衣人II》哪部预算更高?")
    • 最高级(如"《饥饿游戏》最年轻的贡品是谁?")
    • 序数(如"埃及最后一位托勒密统治者是谁?")
    • 多跳推理(如"赢得第50届超级碗的四分卫是谁?")
    • 交集查询(如"丹尼斯·维伦纽瓦导演且提莫西·查拉梅主演的电影?")
    • 差异查询(如"哪款马里奥赛车游戏没有耀西角色?")
    • 是非判断(如"Lady Gaga与Ariana Grande合作过吗?")
  • 知识 grounding:所有实体链接至Wikidata知识图谱节点
  • 领域覆盖:电影、音乐、体育、书籍、地理、政治、视频游戏和历史八大类别

数据采集方法

通过众包平台采集自然问题,设计两阶段标注流程:

  1. 问题生成阶段:要求工作者编写需复杂操作的问答对
  2. 实体链接阶段:标注问答中的实体并关联Wikipedia证据源

技术评估结果

  • 自然度评估:在1(最不自然)到5(最自然)的评分中,Mintaka平均自然度显著高于KQA Pro、ComplexWebQuestions、DROP和ComplexQuestions数据集
  • 基线模型表现:最佳模型T5在Closed Book QA任务中仅达到38%的hits@1准确率,证明数据集具有挑战性
  • 多语言支持:提供完整的跨语言评估基准

技术意义

该数据集填补了复杂问答领域四大空白:大规模、高复杂性、自然生成和多语言支持。通过公开发布,推动问答模型处理多语言复杂问题的技术发展。

相关技术资源已发布于某中心研究平台,包含完整数据集与基准代码。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计