机器翻译中的偏见缓解与用户需求贴近

本文探讨了机器翻译中的性别偏见问题及解决方案,包括数据增强和自训练方法,同时介绍了术语约束翻译技术,旨在提高翻译准确性并更好地满足用户需求。

近年来,缓解机器学习模型中的偏见已成为重要研究课题,自然语言处理领域也不例外。

某中心应用科学家兼EMNLP会议领域主席表示:“量化并解决偏见不仅是责任所在,这些问题本身也极具挑战性和吸引力。“其研究重点是机器翻译,其中量化偏见问题尤为突出。

机器翻译中明显的偏见领域是从无性别名词语言翻译到有性别名词语言时的性别刻板印象。“例如’我的朋友是护士’,‘护士’被翻译为女性;而’我的朋友是医生’时,‘医生’被翻译为男性。”

训练数据不平衡是主要原因之一。最常用的平行语料库Europarl中,仅30%数据来自女性说话者。其他公共数据集的男性特定数据量接近女性特定数据的三倍。

即使源语言存在歧义,翻译模型也可能因偏见产生错误输出。“模型会极力避免生成反刻板印象的输出,有时甚至改变句子原意或生成不合语法的输出。”

某机构研究人员提出通过数据增强解决训练数据不平衡问题。“我们的方法仅使用单语数据,采用自训练方式让模型自行翻译更多女性相关数据,通过去除错误翻译的句子来平衡训练数据。这在多个公共数据集上提高了女性指代句子的准确性,且不影响男性性别准确性。”

但研究人员指出仍需解决更多问题:“当前工作仅考虑男性和女性两种性别,需要扩展到其他代表性不足的性别。此外还存在其他类型的偏见,如保护性群体间的翻译质量差异,以及翻译中产生贬损性和攻击性语言的问题。”

在术语翻译任务方面,研究人员组织了"使用术语的翻译"共享任务,要求机器翻译引擎根据特定术语的优选翻译数据库进行处理。“客户可能每年更改术语要求,具有很强动态性。现在的输入是带有注释的句子,指示如何翻译特定术语,神经网络既能学习翻译也能应用术语约束。”

机器翻译正面临超越单纯翻译的更多需求,例如处理包含HTML标记的文本或文档中的表格翻译。“最终目标是更贴近翻译技术用户的实际需求,弥合基础翻译与用户真正需要之间的差距。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计