机器翻译中的语体控制
神经机器翻译系统通常为每个输入文本段返回单一翻译结果。当输入段存在歧义时,模型必须从多个有效选项中选择翻译,而不考虑预期用例或目标受众。例如,英语到法语的翻译需要在输出中选择不同正式程度的语体——如法语中的"tu"和"vous",或西班牙语中的"tú"和"usted"。
现有挑战与解决方案
过去训练具有语体控制功能的神经机器翻译模型依赖于大型标注数据集。为多种不同语言创建高质量的标注翻译既耗时又昂贵,这些早期工作仅限于特定语言。
今年发布的新多领域数据集CoCoA-MT,包含六个不同语言对中语体和语法性别的短语级标注,帮助构建能更好推断语体的神经机器翻译系统。同时开发了一种利用有限数据训练机器翻译模型的方法,可以控制其输出的正式程度。
文化背景的重要性
缺乏语体控制会让模型在不同有效翻译选项间选择,可能导致翻译结果不一致,或在某些场景(如商务、客户服务、游戏聊天)或特定文化背景的说话者看来显得粗鲁或不合时宜。
例如在德语中询问"Are you sure?“时,客服支持人员会使用正式语体——“Sind Sie sich sicher?",而游戏聊天中玩家会使用非正式语体——“Bist du dir sicher?"。
不同语言中语体的语法和词汇表达方式差异很大。许多印欧语言通过第二人称代词和/或相应的动词一致来区分正式和非正式语体。日语和韩语则有更广泛的方式表达礼貌、尊重和谦逊的言语。
有限数据下的语体控制学习
CoCoA-MT初始版本专注于六个语言对,涵盖三个口语领域:客服支持聊天、主题聊天和电话对话。要求专业翻译人员从英语源片段生成正式和非正式翻译。非正式翻译从正式翻译后编辑而来,翻译人员被要求做出最小必要更改。
为了利用少量标注对比数据,将语体控制框架构建为迁移学习问题。该方法从通用神经机器翻译模型开始,在CoCoA-MT数据集的对比示例上进行精细调优。
方法效果与展望
精细调优策略可以成功控制通用神经机器翻译系统的语体,而不会损失通用质量。具有语体控制的系统在领域外设置中同样有效。
使用CoCoA-MT的对比示例和未标注并行数据的等量混合进行精细调优,提高了所有三个领域(包括保留的呼叫中心领域)正式和非正式片段的准确性。同时在MuST-C数据集上的通用准确性保持稳定。
对比标注数据和迁移学习是在保持通用质量并推广到未见领域的同时,用有限数据有效训练模型的手段。研究人员可以期待在IWSLT 2023上组织的关于语体控制的共享任务。