数据集帮助评估机器翻译模型中的性别偏见
测试集包含1,150个文本片段,每种语言九个版本。
近年来,机器翻译系统变得更加准确和流畅。随着其应用范围的扩大,确保它们尽可能公平、无偏见和准确变得越来越重要。例如,机器翻译系统有时会错误地翻译输入片段中提到的性别,即使在语言上下文中个体的性别是明确的。此类错误可能对翻译的正确性和公平性产生过大影响。我们将此问题称为性别翻译准确性问题。
机器翻译模型有时会错误翻译输入文本中提到的人的性别,即使其性别在上下文中是明确的。为了更容易在各种场景中评估性别翻译准确性,某中心翻译团队的同事发布了新的评估基准:MT-GenEval。我们在2022年自然语言处理经验方法会议(EMNLP)上发表的论文中描述了该基准。
MT-GenEval是一个大型、真实的评估集,涵盖从英语到八种多样且广泛使用(但在某些情况下研究不足)语言的翻译:阿拉伯语、法语、德语、印地语、意大利语、葡萄牙语、俄语和西班牙语。除了每种语言对的1,150个评估数据段外,还发布了2,400个平行句子用于训练和开发。与人工构建的广泛使用的偏见测试集不同,MT-GenEval数据基于来自维基百科的真实世界数据,并包括每种语言中专业创建的参考翻译。还提供自动指标,评估性别翻译的准确性和质量。
性别表示
要了解性别翻译不准确通常出现在哪里,理解不同语言如何表示性别是有帮助的。在英语中,有些词明确标识性别,例如she(女性)或brother(男性)。许多语言,包括MT-GenEval中涵盖的语言,具有更广泛的语法性别系统,其中名词、形容词、动词和其他词类可以标记性别。例如,“a tall librarian”的西班牙语翻译如果图书管理员是女性(una bibliotecaria alta)或男性(un bibliotecario alto)则不同。
当机器翻译模型从没有或有限性别的语言(如英语)翻译到具有广泛语法性别的语言(如西班牙语)时,它不仅要翻译,还要正确表达输入中缺乏性别的词的性别。例如,对于英语句子“He is a tall librarian”,模型必须正确选择“a”(un,不是una)、“tall”(alto,不是alta)和“librarian”(bibliotecario,不是bibliotecaria)的男性语法性别,所有这些都基于单个输入词“He”。在现实世界中,输入文本通常比这个简单示例更复杂,并且消除个体性别歧义的词可能离翻译中表达性别的词非常远——甚至可能在另一个句子中。在这些情况下,我们观察到机器翻译模型倾向于忽略消除歧义的上下文,甚至依赖性别刻板印象(例如,将“pretty”翻译为女性,“handsome”翻译为男性,无论上下文如何)。虽然我们已经看到几个这类性别翻译准确性问题的轶事案例,但直到现在还没有办法在现实、复杂的输入文本中系统量化此类案例。通过MT-GenEval,我们希望弥合这一差距。
构建数据集
为了创建MT-GenEval,我们首先搜索英语维基百科文章,找到候选文本段,每个段落在三句话的范围内至少包含一个性别词。因为我们想确保这些段落与评估性别准确性相关,我们要求人类注释者排除任何不涉及个体(例如,“电影She’s All That于1999年上映”)或不明确表达该个体性别(例如,“You are a tall librarian”)的句子。
然后,为了按性别平衡测试集,注释者为这些段落创建了反事实,其中每个个体的性别从女性改为男性或从男性改为女性。(在初始版本中,MT-GenEval涵盖两种性别:女性和男性。)例如,“He is a prince and will someday be king”将改为“She is a princess and will someday be queen”。这种类型的平衡确保不同性别的子集没有不同的含义。最后,专业翻译人员将每个句子翻译成八种目标语言。
平衡的测试集还允许我们评估性别翻译准确性,因为对于每个段落,它提供了一个正确的翻译,具有正确的性别,以及一个对比翻译,该翻译仅在性别特定词上不同于正确翻译。在论文中,我们提出了一个简单的准确性指标:对于给定具有所需性别的翻译,我们考虑对比参考中的所有性别词。如果翻译包含对比参考中的任何性别词,则标记为不正确;否则,标记为正确。我们的自动指标与注释者相当一致,在所有八种目标语言中F分数超过80%(英语是源语言)。
虽然这在词汇级别评估翻译,但我们还引入了一个指标来测量男性和女性输出的机器翻译质量差异。我们将此性别质量差距定义为平衡数据集的男性和女性子集上BLEU分数的差异。
鉴于这种广泛的整理和注释,MT-GenEval是评估机器翻译中性别准确性的一个进步。我们希望通过发布MT-GenEval,能激励更多研究人员致力于提高各种语言复杂、真实世界输入上的性别翻译准确性。