机器翻译模型的多领域自适应技术

本文提出了一种结合弹性权重巩固与数据混合的神经机器翻译多领域自适应方法,在保持原领域翻译质量的同时提升新领域表现,实验显示该方法在德英和英法翻译任务中显著优于传统技术。

神经机器翻译系统通常针对特定文本领域(如新闻文章、用户手册或客服聊天记录)进行优化。然而在实际工业场景中,每个语言对需要部署单一系统来处理多领域文本,且服务提供商往往无法预知客户感兴趣的领域。

在EMNLP 2021会议上,提出了一种新的神经翻译模型多领域自适应方法。该方法通过结合弹性权重巩固(EWC)和数据混合两种技术,在旧任务和新任务之间实现了更优的权衡表现。EWC通过约束模型参数更新方式防止灾难性遗忘,而数据混合策略则同时暴露新旧领域数据给翻译系统。

实验表明,相较于单独使用EWC,该组合方法在德英翻译系统中将原任务性能提升2个BLEU值,在英法翻译中提升0.8个BLEU值,同时保持新任务可比性能。理论分析揭示了两种技术的内在关联:通过放松条件独立性假设,推导出新的损失函数,其附加项等效于将原领域数据样本混合到新数据中。

关键实验对比显示:

  1. 单独EWC虽能减轻灾难性遗忘,但会显著降低新领域质量
  2. 1:1比例的数据混合可保持新领域高质量,同时维持旧任务较高性能
  3. 通过调节超参数λ,组合方法可获得整体最佳表现

该方法为某中心的实时机器翻译服务提供了技术支持,能够处理数百种语言间日益多样化的客户用例。研究还补充了先前通过模型蒸馏实现多领域自适应的工作,为构建通用翻译系统提供了新思路。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计