MediQAl:法语医疗问答数据集的技术架构与评估
数据集构建
MediQAl数据集包含32,603道源自法国医疗考试的题目,覆盖41个医疗学科。数据集设计包含三种任务形式:
- 单项选择问答(唯一答案)
- 多项选择问答(多个答案)
- 开放式问答(简答形式)
认知能力标注
每道题目均标注为「理解型」或「推理型」,支持对模型认知能力的细粒度分析。这种标注体系允许研究者区分模型在事实回忆和逻辑推理方面的表现差异。
基准测试验证
通过14个大语言模型(包括最新增强推理模型)的广泛评估显示:
- 在事实回忆任务与推理任务之间存在显著性能差距
- 为法语医疗问答提供标准化评估基准
- 填补多语言医疗领域资源的关键空白
技术意义
该数据集解决了医疗领域多语言评估资源短缺问题,为:
- 语言模型的医疗知识掌握程度评估
- 临床场景推理能力验证
- 多语言医疗AI系统开发 提供重要技术基础设施。