多语言复杂问答数据集技术解析

多语言复杂问答数据集技术解析

某中心发布Mintaka多语言复杂问答数据集，包含2万条需多事实检索与比较的问题，覆盖8种语言并基于Wikidata知识图谱构建，为问答模型训练提供更自然的复杂问题基准。

数据集构建背景

问答系统（QA）是机器学习中预测问题答案的任务。现有数据集存在三大局限：规模大但问题简单、问题复杂但规模小，或通过合成生成缺乏自然性。多数数据集仅支持英语，难以满足多语言复杂问答需求。

Mintaka数据集特性

规模与语言：包含20,000条英语原始问题，专业翻译为阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语
复杂性定义：需超越单事实检索的操作，包含8类复杂问题：
- 计数（如"有多少宇航员入选国会？"）
- 比较（如"《泰坦尼克号》与《黑衣人II》哪部预算更高？"）
- 最高级（如"《饥饿游戏》最年轻的贡品是谁？"）
- 序数（如"埃及最后一位托勒密统治者是谁？"）
- 多跳推理（如"赢得第50届超级碗的四分卫是谁？"）
- 交集查询（如"丹尼斯·维伦纽瓦导演且提莫西·查拉梅主演的电影？"）
- 差异查询（如"哪款马里奥赛车游戏没有耀西角色？"）
- 是非判断（如"Lady Gaga与Ariana Grande合作过吗？"）
知识 grounding：所有实体链接至Wikidata知识图谱节点
领域覆盖：电影、音乐、体育、书籍、地理、政治、视频游戏和历史八大类别

数据采集方法

通过众包平台采集自然问题，设计两阶段标注流程：

问题生成阶段：要求工作者编写需复杂操作的问答对
实体链接阶段：标注问答中的实体并关联Wikipedia证据源

技术评估结果

自然度评估：在1（最不自然）到5（最自然）的评分中，Mintaka平均自然度显著高于KQA Pro、ComplexWebQuestions、DROP和ComplexQuestions数据集
基线模型表现：最佳模型T5在Closed Book QA任务中仅达到38%的hits@1准确率，证明数据集具有挑战性
多语言支持：提供完整的跨语言评估基准

技术意义

该数据集填补了复杂问答领域四大空白：大规模、高复杂性、自然生成和多语言支持。通过公开发布，推动问答模型处理多语言复杂问题的技术发展。

相关技术资源已发布于某中心研究平台，包含完整数据集与基准代码。

comments powered by Disqus