机器翻译中形式控制的技术实现

在某机构近期举办的国际口语翻译会议（IWSLT）“机器翻译形式控制"竞赛中，某智能语音中心开发的形式控制翻译系统荣获第一。在英日翻译任务中，经人工评估其绝对准确率超越第二名系统9.8个百分点。在英印翻译中实现了近乎完美的准确率（正式99.6%，非正式99.8%）。

形式控制的技术意义

传统机器翻译模型通常为每个输入生成单一译文，无法适应不同使用场景和目标受众。这种无条件翻译虽在许多场景有效，但无法处理全球不同地区的语言使用差异。若由模型自主选择不同有效选项，可能导致译文形式程度失当，在客服聊天等特定场景中可能被视为失礼。

两阶段微调控制技术

采用两阶段微调策略训练形式控制机器翻译模型：首先通过在大规模平行翻译语料上微调mBART多语言模型，训练通用神经机器翻译模型；随后使用形式标注数据进一步微调通用模型。每个训练样本均标注形式标签（或），推理时可通过在输入文本追加形式标签来控制译文形式程度。

数据稀疏性解决方案

IWSLT竞赛的核心挑战在于数据稀疏性——仅数百个形式标注样本可用于微调NMT模型。为此开发了数据增强方法：利用语言线索自动标注目标语言（印地语和日语）文本的形式标签，使用种子集训练多语言BERT作为文本形式分类器，进而从大规模平行语料中挖掘额外形式标注数据。

后编辑技术突破

系统性能关键在于后编辑技术：首先提出两种基于语言特定形式规则的后编辑方法。T-V形式转换技术可识别并调整传达形式程度的代词使用；动词变形技术通过改变动词表达不同形式程度（如日语中添加”-ます"后缀使句子保持礼貌）。此外还设计了基于序列到序列指针生成器的语言无关后编辑策略，该网络可选择为特定输入生成新输出，非常适合仅需修改文本特定元素的形式控制场景。

实验结果

使用IWSLT测试集的离线实验表明：通过形式分类器的数据增强使英日翻译形式控制准确率提升2.3个百分点。在微调mBART模型基础上应用后编辑策略能简单有效地提升性能：日文正式准确率从93.9%提升至95.5%，非正式准确率从98.1%达到100%；印地语正式翻译实现100%准确率，非正式准确率从84.4%提升至97.8%。

致谢：Jiang Yu, Ashwin Ganesan, Sarah Campbell

机器翻译中形式控制技术突破

某中心在国际口语翻译会议竞赛中夺冠，通过两阶段微调策略和数据增强技术实现机器翻译形式控制，在英日翻译中领先第二名9.8个百分点，并采用后编辑技术将印地语非正式翻译准确率提升至97.8%。