近年来,缓解机器学习模型中的偏见已成为重要研究方向,自然语言处理领域亦不例外。某中心应用科学家、自然语言处理实证方法会议领域主席指出,量化并解决偏见问题既是责任所在,也蕴含极具挑战性的技术难题。
机器翻译领域的偏见量化尤为复杂,因为同一输入存在多个有效译文,且难以判定译文是否存在偏见或仅为合理变体。典型案例如从无性别语言翻译至有性别语言时出现的职业性别刻板印象:“护士"被译为女性,而"医生"被译为男性。训练数据不平衡是主因之一,常用平行语料库Europarl中仅30%数据来自女性说话者,其他公共数据集的男性相关数据量约为女性的三倍。
针对源语言存在歧义的情况,现有技术方案包括:通过上下文消歧、会话场景推断性别信息,或允许用户在歧义情况下指定目标性别。即使明确语境中,翻译模型仍可能因固有偏见产生错误输出,例如将"我的姐姐以成为优秀外科医生为荣"曲解为"我的姐姐以我(男性)成为优秀外科医生为荣”。
某机构研究团队在EMNLP提出通过数据增强解决训练数据不平衡的方案。该方法仅使用单语数据,通过自训练框架让模型自行生成更多女性相关译文,经错误过滤后加入训练集。在公开数据集测试中,该方法在提升女性指代句子准确性的同时,未降低男性指代句子的翻译质量。
该研究目前仅涉及二元性别,需进一步扩展至其他 underrepresented 性别类别。此外,机器翻译还存在其他偏见类型,如保护性群体间的表征质量差异,以及翻译过程中生成贬损性语言等问题。
在机器翻译会议术语翻译任务中,研究团队探索了术语数据库约束下的翻译技术。该任务要求模型根据动态更新的专业术语库进行翻译,例如零售领域将"order"译为法文"commande"。最新解决方案利用神经网络能力,使模型不仅能完成翻译,还能学习应用术语约束指令。输入序列除源语句外,还包含从术语库自动提取的标注信息,指导特定术语的翻译处理。
当前机器翻译需处理超越纯文本翻译的复杂场景,如含HTML标记的文本翻译需保持标记结构完整性,表格翻译需确保译文适配原有布局。这些技术发展标志着机器翻译正从基础功能向用户实际需求演进,实现翻译技术与应用场景的深度融合。