机器翻译"正式度控制"技术夺冠方案解析

机器翻译"正式度控制"技术夺冠方案解析

某机构在国际口语翻译会议(IWSLT)的"机器翻译正式度控制"任务中夺冠，其采用两阶段微调策略、数据增强方法和后编辑技术，在英日翻译中比第二名绝对准确率高出9.8个百分点。

机器翻译正式度控制的意义

传统机器翻译模型通常为每个输入生成单一译文，无法适应不同使用场景和目标受众的需求。这种无条件翻译可能导致译文正式度不当，在客服对话等场景中显得冒犯或突兀。

两阶段微调技术方案

基础模型训练：基于mBART多语言模型，在大规模平行语料库上进行通用神经机器翻译(NMT)模型微调
正式度微调：在标注正式度标签(/)的数据上进一步微调，推理时通过添加标签控制输出正式度

数据稀疏性解决方案

面对仅数百条标注数据的挑战，研发团队：

利用语言线索自动标注目标语言(日语/印地语)文本的正式度标签
基于种子数据训练mBERT作为多语言文本正式度分类器
使用该分类器从海量平行语料中挖掘额外标注数据

后编辑技术突破

T-V代词转换：调整传达正式度的代词使用
动词变位处理：例如日语中添加"-ます"后缀提升礼貌度
通用序列编辑：采用指针生成器网络，选择性修改文本元素

性能表现

英日翻译：数据增强使正式度准确率提升2.3个百分点
后编辑技术使日语正式译文准确率从93.9%提升至95.5%，非正式译文达100%
印地语翻译实现100%正式准确率，非正式准确率从84.4%提升至97.8%

comments powered by Disqus