提升机器翻译的鲁棒性与稳定性技术

本文探讨通过伪标签训练提升神经机器翻译的鲁棒性、一致性和更新稳定性,分析模型惯性现象及分布简化效应,并验证该方法在多语言场景下的有效性。

提升机器翻译的鲁棒性、一致性与稳定性

神经机器翻译(NMT)依赖过度参数化的深度神经网络,这些模型规模庞大却持续随参数增长提升性能。然而,此类模型存在脆弱性:预测易受微小输入变化影响,重训练可能导致输出显著差异,尤其当用户依赖下游任务输出时,模型对相同输入段突然产生更差结果的情况尤为突出。

模型惯性研究

在国际学习表征会议(ICLR)发表的研究中,我们探讨了模型鲁棒性、一致性与更新稳定性(统称为模型惯性)问题。发现使用伪标签数据训练(PLT)的技术具有改善模型惯性的未充分报道的副作用。

实验设计

研究针对低资源与高资源语言的双向翻译对(如英↔德、英↔俄、英↔日),PLT在所有场景中均提升模型惯性。同时提出生成模型中衡量回归(即更新模型在特定任务上性能倒退)的方法,并证明PLT可减少此类回归。

伪标签训练的应用

实验涵盖机器翻译中常见的PLT变体:

  • 自训练/前向翻译:将单语数据通过翻译伪标注转化为并行数据
  • 知识蒸馏:使用大型教师模型伪标注训练数据,训练小型学生模型

关键发现

  1. 输入扰动测试:通过随机替换字符生成拼写错误及自然语法错误,发现PLT训练使模型输出更一致,且与训练数据量或教师模型规模无关
  2. 随机种子稳定性:仅改变随机种子即可导致超过90%输出变化,加入伪标签数据后:
    • 精确匹配输出比例提升近一倍
    • 词汇相似度定义的稳定性提高约20%
  3. 负翻转现象:针对性别翻译准确性(使用WinoMT数据集)等定向错误类别,PLT方法在特定和通用质量指标上减少负面回归

分布简化假说

研究提出分布简化效应假说:PLT通过降低训练数据复杂度(以条件熵度量)提升稳定性。与BPE-Dropout、回译和n-best采样等鲁棒性技术对比实验显示,模型稳定性与训练分布简化程度存在相关性。

意义与展望

随着大型神经网络广泛用于生成任务,控制模型产生更鲁棒、一致和稳定的输出至关重要。本研究为人工智能实现优雅演进提供了技术路径。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计