机器翻译中形式控制的技术实现
在某机构近期举办的国际口语翻译会议(IWSLT)“机器翻译形式控制"竞赛中,某智能语音中心开发的形式控制翻译系统荣获第一。在英日翻译任务中,经人工评估其绝对准确率超越第二名系统9.8个百分点。在英印翻译中实现了近乎完美的准确率(正式99.6%,非正式99.8%)。
形式控制的技术意义
传统机器翻译模型通常为每个输入生成单一译文,无法适应不同使用场景和目标受众。这种无条件翻译虽在许多场景有效,但无法处理全球不同地区的语言使用差异。若由模型自主选择不同有效选项,可能导致译文形式程度失当,在客服聊天等特定场景中可能被视为失礼。
两阶段微调控制技术
采用两阶段微调策略训练形式控制机器翻译模型:首先通过在大规模平行翻译语料上微调mBART多语言模型,训练通用神经机器翻译模型;随后使用形式标注数据进一步微调通用模型。每个训练样本均标注形式标签(
数据稀疏性解决方案
IWSLT竞赛的核心挑战在于数据稀疏性——仅数百个形式标注样本可用于微调NMT模型。为此开发了数据增强方法:利用语言线索自动标注目标语言(印地语和日语)文本的形式标签,使用种子集训练多语言BERT作为文本形式分类器,进而从大规模平行语料中挖掘额外形式标注数据。
后编辑技术突破
系统性能关键在于后编辑技术:首先提出两种基于语言特定形式规则的后编辑方法。T-V形式转换技术可识别并调整传达形式程度的代词使用;动词变形技术通过改变动词表达不同形式程度(如日语中添加”-ます"后缀使句子保持礼貌)。此外还设计了基于序列到序列指针生成器的语言无关后编辑策略,该网络可选择为特定输入生成新输出,非常适合仅需修改文本特定元素的形式控制场景。
实验结果
使用IWSLT测试集的离线实验表明:通过形式分类器的数据增强使英日翻译形式控制准确率提升2.3个百分点。在微调mBART模型基础上应用后编辑策略能简单有效地提升性能:日文正式准确率从93.9%提升至95.5%,非正式准确率从98.1%达到100%;印地语正式翻译实现100%准确率,非正式准确率从84.4%提升至97.8%。
致谢:Jiang Yu, Ashwin Ganesan, Sarah Campbell