适应机器翻译模型应对新领域
神经机器翻译系统通常针对特定文本领域(如新闻文章、用户手册或客服聊天记录)进行优化。多领域自适应是指在将现有神经机器翻译模型适配到新领域的同时,保持其在原始领域的翻译质量。
在需要服务数百种语言对的工业场景中,为每个语言对部署维护一个跨领域表现优异的单一翻译系统更为高效。此外,服务提供商可能无法预知客户感兴趣的领域。
在自然语言处理实证方法会议(EMNLP)上提出了一种神经翻译模型多领域自适应新方法。该方法通过结合弹性权重巩固(EWC)和数据混合两种技术,在旧任务和新任务性能间实现了比前人工作更优的权衡。研究还从理论层面揭示了两者的内在联系。
这两种技术都是为防止灾难性遗忘(模型在学习新任务时遗忘原有任务)而设计。EWC通过约束参数更新方式实现,数据混合则是通过同时暴露新旧数据的策略实现。
实验表明:基于BLEU评分(通过词汇重叠率评估翻译质量的常用指标),EWC与数据混合结合显著提升了原始任务性能。相较于单独使用EWC,德英翻译系统在现有任务上提升2个BLEU值,英法系统提升0.8个BLEU值,且新任务性能保持相当。同时,与EWC结合还通过可控参数实现了新旧任务性能的灵活调节。
更直观的损失函数
假设现有能翻译新闻、政治辩论和用户手册的系统需要适配客服聊天和医疗报告领域。EWC通过超参数λ控制参数更新中旧知识保留与新信息吸收的平衡。数据混合则按比例(通常1:1)将新旧领域数据共同训练。
研究通过理论分析揭示了两者的内在关联:通过放松条件独立性假设(认为任务间性能无关),推导出更符合直觉的损失函数。新损失函数假设存在捕获跨领域通用信息的训练数据子集,其数学形式与数据混合策略等效,为技术融合提供了理论基础。
实验验证:双策略优势
在德英和英法翻译系统的公开数据集实验中,分别测试了EWC、数据混合及其组合效果。结果显示:
- 单独使用EWC虽缓解灾难性遗忘(新闻领域BLEU下降减少),但新领域质量代价显著
- 1:1数据混合能在保持新领域质量的同时,更好维持旧任务性能
- 即使将新旧数据比例增至100:1,仍无法恢复原始任务基线性能
- 通过λ参数调节,EWC与数据混合组合实现整体最优性能
多领域自适应技术对实时机器翻译服务具有重要意义,可支持数百种语言在多样化客户场景中的应用。本研究通过模型蒸馏策略进一步完善了多领域自适应方案。
图表说明:德英(上)与英法(下)翻译系统适配结果,横轴显示三个新数据集BLEU评分,纵轴为原始数据集评分。EWC参数λ从10⁻¹到10⁻⁵变化(左至右),数据混合新旧比例分别为100:1、10:1和1:1。EWC+数据混合采用1:1比例。