机器翻译中的形式控制技术突破

本文介绍了一种基于有限对比数据的迁移学习方法,可有效控制机器翻译输出的正式程度。该方法在CoCoA-MT多语言数据集上验证,能在保持翻译质量的同时实现形式准确性,并支持跨领域泛化应用。

会议信息

NAACL 2022

相关出版物

CoCoA-MT:用于对比受控机器翻译的数据集与基准测试(特别关注形式控制)

技术内容

神经机器翻译(NMT)系统通常为每个输入文本段返回单一翻译。当输入段存在歧义时,模型必须从多个有效选项中选择翻译,而无需考虑使用场景或目标受众。例如,将英语翻译为其他语言时,经常需要在输出中选择不同正式程度或语法语域(如法语的"tu"和"vous",西班牙语的"tú"和"usted")。

以往训练具有形式控制功能的NMT模型需要依赖大型标注数据集。为多种语言创建高质量标注翻译既耗时又昂贵,且早期研究仅限于特定语言。

创新方案

最新发布的多领域数据集CoCoA-MT包含六个语言对的短语级形式性和语法性别标注,有助于构建能更好推断形式性的NMT系统。同时开发了一种利用有限数据训练机器翻译模型的方法,可控制输出内容的正式程度。

文化语境影响

缺乏形式控制可能导致翻译不一致,或在特定场景(如商务、客户服务、游戏聊天)或特定文化背景的使用者看来显得无礼或突兀。例如德语中询问"Are you sure?“时,客服人员需使用正式语域"Sind Sie sich sicher?",而游戏聊天中玩家会使用非正式语域"Bist du dir sicher?"。

不同语言通过语法和词汇表达形式性的方式存在显著差异:

  • 印欧语系语言(德语、印地语、意大利语、西班牙语)通过第二人称代词和/或动词变位区分正式与非正式语域
  • 日语和韩语通过动词和部分名词/形容词的形态标记、特定词汇选择以及更长句式来表达礼貌、尊敬和谦逊

技术实现

CoCoA-MT初始版本聚焦六个语言对(英语→{德语、西班牙语、法语、印地语、意大利语、日语}),涵盖三个口语领域:客服聊天、主题聊天和电话对话。专业翻译人员根据英语源片段生成正式和非正式翻译,并通过最小必要修改(如改变动词屈折变化、替换代词)进行后期编辑。

通过将形式控制构建为迁移学习问题,该方法首先使用通用NMT模型,然后利用CoCoA-MT数据集中的对比示例进行微调。实验证明该微调策略能在不损失通用质量的前提下成功控制形式性,且在域外设置中同样有效。

性能表现

使用CoCoA-MT对比示例和未标注并行数据的等比例混合进行微调,在所有三个领域(包括预留的呼叫中心领域)的形式和非正式片段上都提高了准确性,同时在MuST-C数据集上的通用准确性保持稳定。

应用前景

对比标注数据和迁移学习能够在使用有限数据的情况下有效训练模型,同时保持通用质量并实现向未见领域的泛化。当前该技术已支持法语、德语、印地语、意大利语、日语、西班牙西班牙语、墨西哥西班牙语、韩语、荷兰语、加拿大法语和葡萄牙葡萄牙语的形式级别控制。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计