机器翻译"正式度控制"技术夺冠方案解析

某机构在国际口语翻译会议(IWSLT)的"机器翻译正式度控制"任务中夺冠,其采用两阶段微调策略、数据增强方法和后编辑技术,在英日翻译中比第二名绝对准确率高出9.8个百分点。

机器翻译正式度控制的意义

传统机器翻译模型通常为每个输入生成单一译文,无法适应不同使用场景和目标受众的需求。这种无条件翻译可能导致译文正式度不当,在客服对话等场景中显得冒犯或突兀。

两阶段微调技术方案

  1. 基础模型训练:基于mBART多语言模型,在大规模平行语料库上进行通用神经机器翻译(NMT)模型微调
  2. 正式度微调:在标注正式度标签(/)的数据上进一步微调,推理时通过添加标签控制输出正式度

数据稀疏性解决方案

面对仅数百条标注数据的挑战,研发团队:

  • 利用语言线索自动标注目标语言(日语/印地语)文本的正式度标签
  • 基于种子数据训练mBERT作为多语言文本正式度分类器
  • 使用该分类器从海量平行语料中挖掘额外标注数据

后编辑技术突破

  1. T-V代词转换:调整传达正式度的代词使用
  2. 动词变位处理:例如日语中添加"-ます"后缀提升礼貌度
  3. 通用序列编辑:采用指针生成器网络,选择性修改文本元素

性能表现

  • 英日翻译:数据增强使正式度准确率提升2.3个百分点
  • 后编辑技术使日语正式译文准确率从93.9%提升至95.5%,非正式译文达100%
  • 印地语翻译实现100%正式准确率,非正式准确率从84.4%提升至97.8%
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计