研究背景
神经机器翻译(NMT)系统通常为每个输入文本段返回单一翻译结果。当输入存在歧义时,模型需要在多个有效选项中选择翻译,而不会考虑具体使用场景或目标受众。例如英语翻译过程中经常需要选择不同正式程度(如法语中的"tu"和"vous",西班牙语中的"tú"和"usted")。
技术挑战
传统基于形式控制的NMT模型训练需要大型标注数据集。为多种语言创建高质量标注翻译既耗时又昂贵,此前的研究仅限于特定语言。
解决方案
数据集构建
发布新型多领域数据集CoCoA-MT,包含六个语言对(英语→{德语、西班牙语、法语、印地语、意大利语、日语})在三个口语领域(客户支持聊天、主题聊天和电话对话)的短语级语体和语法性别标注。专业翻译人员根据英语源片段生成正式和非正式翻译,并通过最小必要修改(如改变动词变位、替换代词)进行后期编辑。
训练方法
提出将语体控制构建为迁移学习问题:
- 从通用NMT模型开始
- 使用CoCoA-MT数据集中的对比示例进行微调
- 采用等比例混合对比示例和未标注并行数据的训练策略
实验结果
- 在保持MuST-C数据集通用准确性的同时
- 在所有三个领域(包括预留的呼叫中心领域)的正式和非正式片段准确率均得到提升
- 语体控制系统在领域外设置中同样有效
技术意义
该方法证明使用有限标注数据即可训练出保持通用质量并能泛化到未见领域的模型。目前该技术已应用于某翻译服务的11种语言对,包括法语、德语、印地语、意大利语、日语、西班牙语变体、韩语、荷兰语和葡萄牙语变体。
未来方向
研究人员将继续探索将语体定制扩展到更多语言的方法,并与马里兰大学帕克分校合作在IWSLT 2023上组织关于语体控制的共享任务。