近年来,机器翻译系统的准确性和流畅性显著提升。随着应用范围扩大,确保其公平性、无偏见和准确性变得愈发重要。例如,即使根据语言上下文可明确判断人物性别,机器翻译系统仍可能错误转换输入文本中的性别指代。这类错误会对翻译的正确性和公平性产生重大影响,我们将其归类为性别翻译准确性问题。
为系统评估不同场景下的性别翻译准确性,某机构翻译团队发布了新型评估基准MT-GenEval。该成果已在2022年自然语言处理实证方法会议(EMNLP)发表。该数据集包含英语到阿拉伯语、法语等8种语言的1150个文本片段,所有数据均源自维基百科真实语料并配备专业人工翻译。与人工构建的测试集不同,MT-GenEval还提供2400组平行句对用于训练开发,并创新性地提出同时评估性别准确性和翻译质量的自动指标。
不同语言的性别表达机制存在显著差异。英语中仅有部分词汇(如she/brother)明确指示性别,而MT-GenEval涵盖的目标语言普遍具有更复杂的语法性别体系。例如西班牙语中,“a tall librarian"会根据馆员性别变化为"una bibliotecaria alta”(女)或"un bibliotecario alto"(男)。当从英语等弱性别语言翻译至强语法性别语言时,模型必须基于有限线索(如"He")正确推断多个词汇的性别形式。现实场景中,性别判定线索可能相距甚远甚至跨句分布,此时模型易忽略关键语境甚至回归性别刻板印象。
数据集构建过程包含三重质量控制:首先从维基百科筛选包含明确性别指代的英文三句组,经人工审核排除非常指或性别模糊的片段;随后通过反事实生成实现性别平衡,如将"He is a prince"改写为"She is a princess";最终由专业译者完成八语种翻译。这种平衡设计使得每个片段都具备正确翻译和仅性别词汇差异的对比翻译,支持直接计算性别准确率——若译文出现对比参考中的任何性别词汇即判为错误。实验显示该自动指标与人工判断高度一致(F值超80%)。
除词汇级准确率外,研究还提出基于BLEU分数的性别质量差距指标,用于衡量不同性别子集的翻译质量差异。通过系统化的数据构建和评估框架,MT-GenEval为复杂真实场景下的多语言性别翻译研究提供了新基准。