适应机器翻译模型到新领域
神经机器翻译系统通常针对特定文本领域进行优化,如新闻文章、用户手册或客服聊天记录。多领域自适应是指在将现有神经机器翻译模型适配到新领域的同时,保持其在原始领域的翻译质量。
在工业环境中,为数百种语言对提供服务时,每个语言对部署单一翻译系统在不同文本领域都能表现良好,更便于部署和维护。此外,服务提供商可能无法提前预知客户感兴趣的领域。
新方法:结合弹性权重巩固与数据混合
我们提出了一种新的多领域自适应方法,相比前身技术能更好地平衡新旧任务性能。该方法结合了弹性权重巩固(EWC)和数据混合两种领域自适应技术,并通过理论分析揭示了两者协同工作的原理。
这两种技术都是为了防止灾难性遗忘——即模型在学习新任务时忘记原有任务。弹性权重巩固通过约束模型参数更新方式实现,而数据混合则是数据驱动策略,同时让翻译系统接触新旧数据。
实验表明,结合EWC和数据混合的方法在原始任务上带来显著改进。相对于单独使用EWC,我们的系统在德英翻译系统中将现有任务性能提升了2个BLEU分数,在英法翻译中提升了0.8个BLEU分数,同时在新任务上保持相当性能。
更直观的损失函数
假设我们有一个已学会翻译新闻文章、政治辩论和用户手册的翻译系统,现在要使其适应客服聊天和医疗报告翻译。在适应过程中,我们不希望模型忘记如何翻译原有内容。
弹性权重巩固鼓励以保留参数中现有知识的方式更新模型参数,通过超参数λ控制知识保留与新信息接收的平衡。数据混合则将聊天和医疗报告翻译示例与现有新闻、政治辩论和用户手册数据样本相结合,混合比例通常为1:1,但可调整以改变新旧任务平衡。
我们的理论分析表明,这两种不同策略之间存在联系。通过放松条件独立性假设,我们推导出包含新假设的损失函数,其中添加的项等同于将现有数据样本混合到新数据中,为EWC和数据混合的结合提供了理论基础。
实验结果与选择策略
在德英和英法翻译系统的公开数据集上,我们测试了EWC、数据混合及其组合的效果。结果显示:
- EWC成功减轻了灾难性遗忘,但这是以新领域质量为代价
- 使用1:1新旧数据比例的数据混合可在新领域实现高质量,同时在旧任务上保持更高性能
- 即使将新旧数据比例增加到100:1,也无法恢复在旧任务上的基线性能
- 结合EWC和数据混合,借助强度参数λ,实现了整体最佳性能
多领域自适应对于某中心的翻译服务具有重要意义,该服务支持数百种语言间的翻译,服务于日益增长和多样化的客户使用场景和领域。本文补充了我们先前发表的工作,该工作引入了带有模型蒸馏的多领域自适应策略。