数据集助力评估机器翻译模型的性别偏见
测试集包含1150个文本片段,涵盖九种语言
近年来,机器翻译系统在准确性和流畅性方面取得显著进展。随着应用范围扩大,确保其尽可能公平、无偏见和准确变得愈发重要。例如,机器翻译系统有时会错误翻译输入片段中提及人物的性别,即使在语言语境中个体性别明确无误。此类错误会对翻译的正确性和公平性产生过大影响,这被称为性别翻译准确性问题。
为便于在各种场景中评估性别翻译准确性,某机构机器翻译团队发布了新型评估基准MT-GenEval。该基准在2022年自然语言处理实证方法会议(EMNLP)上发布论文进行阐述。
数据集特点
MT-GenEval是一个大规模现实评估集,涵盖从英语到八种多样且广泛使用(部分语言研究较少)语言的翻译:阿拉伯语、法语、德语、印地语、意大利语、葡萄牙语、俄语和西班牙语。除每种语言对1150个评估数据段外,还发布2400个平行句对用于训练和开发。
与广泛使用的人工构建偏见测试集不同,MT-GenEval数据基于维基百科的真实数据,包含每种语言的专业参考翻译。同时提供自动评估指标,用于评估性别翻译的准确性和质量。
性别表征机制
不同语言的性别表征方式存在差异:英语存在明确标识性别的词汇(如she指女性,brother指男性),而MT-GenEval涵盖的许多语言具有更广泛的语法性别体系,名词、形容词、动词等词类都可能标注性别。
当机器翻译模型从无性别或有限性别语言(如英语)翻译到具有广泛语法性别的语言(如西班牙语)时,模型不仅需要翻译,还必须正确表达输入中缺失性别的词汇的性别。现实中的输入文本通常比简单示例更复杂,消除个体性别歧义的词汇可能与翻译中表达性别的词汇相距甚远(甚至在不同句子中)。在这些情况下,机器翻译模型倾向于忽略消除歧义的语境,甚至回归性别刻板印象。
数据集构建方法
通过扫描英文维基百科文章寻找候选文本片段(每个片段在三句话范围内至少包含一个性别词汇)。为确保片段与性别准确性评估相关,要求人工标注员排除未提及个体或未明确表达个体性别的句子。
为平衡测试集的性别分布,标注员为片段创建反事实样本,将每个个体的性别从女性改为男性或从男性改为女性(当前版本涵盖女性和男性两种性别)。最后由专业翻译人员将每个句子翻译成八种目标语言。
平衡测试集允许评估性别翻译准确性:每个片段都提供正确翻译(含正确性别)和对比翻译(仅性别特定词汇不同)。论文提出直接准确性指标:若翻译包含对比参考中的任何性别词汇则标记为错误,否则标记为正确。自动指标与标注者一致性较高,八种目标语言的F分数均超过80%。
除词汇层面评估外,还引入指标测量机器翻译质量在男女性输出中的差异,将性别质量差距定义为平衡数据集中男性和女性子集BLEU分数的差异。
通过全面整理和标注,MT-GenEval推动了机器翻译性别准确性评估的发展。该数据集的发布有望激励更多研究人员致力于提升多种语言复杂现实输入中的性别翻译准确性。