机器翻译中形式控制技术突破

某中心在国际口语翻译会议竞赛中夺冠,通过两阶段微调策略和数据增强技术实现机器翻译形式控制,在英日翻译中领先第二名9.8个百分点,并采用后编辑技术将印地语非正式翻译准确率提升至97.8%。

机器翻译中形式控制的技术实现

在某机构近期举办的国际口语翻译会议(IWSLT)“机器翻译形式控制"竞赛中,某智能语音中心开发的形式控制翻译系统荣获第一。在英日翻译任务中,经人工评估其绝对准确率超越第二名系统9.8个百分点。在英印翻译中实现了近乎完美的准确率(正式99.6%,非正式99.8%)。

形式控制的技术意义

传统机器翻译模型通常为每个输入生成单一译文,无法适应不同使用场景和目标受众。这种无条件翻译虽在许多场景有效,但无法处理全球不同地区的语言使用差异。若由模型自主选择不同有效选项,可能导致译文形式程度失当,在客服聊天等特定场景中可能被视为失礼。

两阶段微调控制技术

采用两阶段微调策略训练形式控制机器翻译模型:首先通过在大规模平行翻译语料上微调mBART多语言模型,训练通用神经机器翻译模型;随后使用形式标注数据进一步微调通用模型。每个训练样本均标注形式标签(),推理时可通过在输入文本追加形式标签来控制译文形式程度。

数据稀疏性解决方案

IWSLT竞赛的核心挑战在于数据稀疏性——仅数百个形式标注样本可用于微调NMT模型。为此开发了数据增强方法:利用语言线索自动标注目标语言(印地语和日语)文本的形式标签,使用种子集训练多语言BERT作为文本形式分类器,进而从大规模平行语料中挖掘额外形式标注数据。

后编辑技术突破

系统性能关键在于后编辑技术:首先提出两种基于语言特定形式规则的后编辑方法。T-V形式转换技术可识别并调整传达形式程度的代词使用;动词变形技术通过改变动词表达不同形式程度(如日语中添加”-ます"后缀使句子保持礼貌)。此外还设计了基于序列到序列指针生成器的语言无关后编辑策略,该网络可选择为特定输入生成新输出,非常适合仅需修改文本特定元素的形式控制场景。

实验结果

使用IWSLT测试集的离线实验表明:通过形式分类器的数据增强使英日翻译形式控制准确率提升2.3个百分点。在微调mBART模型基础上应用后编辑策略能简单有效地提升性能:日文正式准确率从93.9%提升至95.5%,非正式准确率从98.1%达到100%;印地语正式翻译实现100%准确率,非正式准确率从84.4%提升至97.8%。

致谢:Jiang Yu, Ashwin Ganesan, Sarah Campbell

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计