会议信息
NAACL 2022
相关出版物
CoCoA-MT: 用于对比受控机器翻译的数据集与基准测试(特别针对形式控制应用)
技术内容
神经机器翻译(NMT)系统通常为每个输入文本段返回单一翻译结果。这意味着当输入段存在歧义时,模型必须从多个有效选项中选择翻译结果,而不考虑预期用例或目标受众。例如,英语到法语的翻译经常需要在输出中选择不同正式程度或语法语域——比如法语中的"tu"和"vous",或西班牙语中的"tú"和"usted"。
以往训练具有形式控制功能的NMT模型需要依赖大型标注数据集。为多种不同语言创建高质量的标注翻译既耗时又昂贵,这些早期工作仅限于特定语言。
今年发布的新多领域数据集CoCoA-MT包含六个不同语言对中短语级别的形式性和语法性别标注,旨在帮助构建能更好推断形式性的NMT系统。同时开发了一种利用有限数据训练机器翻译模型的方法,该方法可以控制输出文本的正式程度。
文化背景考量
缺乏形式控制时,让模型在不同有效翻译选项之间进行选择可能导致翻译结果不一致,或在某些场景(如商务、客户服务、游戏聊天)或特定文化背景的说话者看来显得粗鲁或突兀。例如在德语中询问"Are you sure?“时,客服人员会使用正式语域——“Sind Sie sich sicher?"——而游戏聊天中的玩家会使用非正式语域——“Bist du dir sicher?"。
不同语言在语法和词汇层面表达形式性的方式存在很大差异。在许多印欧语系语言(如德语、印地语、意大利语和西班牙语)中,正式和非正式语域通过第二人称代词和/或相应的动词一致关系来区分。日语和韩语则有更丰富的方式来表达礼貌、尊敬和谦逊语气,包括主要动词及某些名词和形容词的形态标记、特定词汇选择以及更长的句子结构。
有限数据下的形式控制学习
CoCoA-MT初始版本专注于三个口语领域(客服聊天、主题聊天和电话对话)中的六个语言对(英语→{德语、西班牙语、法语、印地语、意大利语、日语})。聘请专业翻译人员从英语源片段生成正式和非正式翻译,其中非正式翻译通过后期编辑正式翻译得到,要求翻译人员做出最小必要更改(如改变动词屈折变化、替换代词)。翻译人员还标注了短语以指示形式级别,这些标注可用于开发衡量形式准确性的片段级指标。
为了利用少量标注对比数据,提出将形式控制框架构建为迁移学习问题。该方法从通用NMT模型开始,使用CoCoA-MT数据集中的对比示例进行微调。
研究表明,这种微调策略可以成功控制通用NMT系统的形式性而不损失通用质量。同时证明形式控制系统在域外设置(即与训练域不匹配的设置)中同样有效。
使用CoCoA-MT对比示例和未标注并行数据的等比例混合进行微调,提高了所有三个领域(包括保留的呼叫中心领域)正式和非正式片段的准确性,同时在MuST-C数据集上的通用准确性保持稳定。
未来展望
对比标注数据和迁移学习已成为在有限数据量下有效训练模型的手段,同时保持通用质量并推广到未见领域。但随着将形式定制扩展到某中心翻译服务支持的75种语言,挑战依然存在。目前某中心翻译服务的客户可以在翻译成法语、德语、印地语、意大利语、日语、西班牙西班牙语、墨西哥西班牙语、韩语、荷兰语、加拿大法语和葡萄牙葡萄牙语时控制形式级别。研究人员可期待与马里兰大学帕克分校合作在IWSLT 2023上组织的形式控制共享任务。
致谢
Anna Currey
研究领域
会话式人工智能
标签
[神经机器翻译, 机器翻译, 数据集开发, NAACL]