数据集助力评估机器翻译模型的性别偏见
近年来,机器翻译系统的准确性和流畅性显著提升。随着应用范围扩大,确保其公平、无偏见和准确变得尤为重要。例如,即使根据语言上下文可明确判断人物性别,机器翻译系统仍可能错误翻译输入文本中的人物性别,这类错误会对翻译的正确性和公平性产生严重影响。
构建评估基准
为便于在各种场景下评估性别翻译准确性,某机构机器翻译团队发布了新型评估基准MT-GenEval。该基准在2022年自然语言处理实证方法会议(EMNLP)上发布,涵盖从英语到阿拉伯语、法语、德语、印地语、意大利语、葡萄牙语、俄语和西班牙语等八种语言的翻译任务。
数据集特点
- 真实数据基础:与人工构建的偏见测试集不同,MT-GenEval基于维基百科真实数据,包含专业翻译参考译文
- 反事实平衡:通过将人物性别从男性改为女性(或反之)生成对比文本,确保测试集性别平衡
- 双重评估指标:提供词汇级准确度评估和基于BLEU分数的性别翻译质量差异评估
技术实现细节
数据集构建过程中,研究人员从英文维基百科中筛选包含明确性别词汇的三句话文本段,经人工标注排除不涉及人物或性别模糊的句子。针对每个文本段生成性别反事实版本后,由专业译者完成八种目标语言的翻译。
评估方法包含:
- 性别准确度检测:若翻译结果中出现对比参考译文中的性别相关词汇即判为错误
- 质量差异评估:计算男性/女性子集的BLEU分数差异(性别质量差距)
应用价值
该数据集首次实现了对复杂真实文本中性别翻译准确性的系统量化,为改进多语言机器翻译的性别准确性提供重要基准。自动评估指标在八种目标语言中F分数均超过80%,验证了其有效性。