提升机器翻译的鲁棒性、一致性与稳定性
神经机器翻译(NMT)依赖过度参数化的深度神经网络,这些模型规模庞大却持续随参数增长提升性能。然而,此类模型存在脆弱性:预测易受微小输入变化影响,重训练可能导致输出显著差异,尤其当用户依赖下游任务输出时,模型对相同输入段突然产生更差结果的情况尤为突出。
模型惯性研究
在国际学习表征会议(ICLR)发表的研究中,我们探讨了模型鲁棒性、一致性与更新稳定性(统称为模型惯性)问题。发现使用伪标签数据训练(PLT)的技术具有改善模型惯性的未充分报道的副作用。
实验设计
研究针对低资源与高资源语言的双向翻译对(如英↔德、英↔俄、英↔日),PLT在所有场景中均提升模型惯性。同时提出生成模型中衡量回归(即更新模型在特定任务上性能倒退)的方法,并证明PLT可减少此类回归。
伪标签训练的应用
实验涵盖机器翻译中常见的PLT变体:
- 自训练/前向翻译:将单语数据通过翻译伪标注转化为并行数据
- 知识蒸馏:使用大型教师模型伪标注训练数据,训练小型学生模型
关键发现
- 输入扰动测试:通过随机替换字符生成拼写错误及自然语法错误,发现PLT训练使模型输出更一致,且与训练数据量或教师模型规模无关
- 随机种子稳定性:仅改变随机种子即可导致超过90%输出变化,加入伪标签数据后:
- 精确匹配输出比例提升近一倍
- 词汇相似度定义的稳定性提高约20%
- 负翻转现象:针对性别翻译准确性(使用WinoMT数据集)等定向错误类别,PLT方法在特定和通用质量指标上减少负面回归
分布简化假说
研究提出分布简化效应假说:PLT通过降低训练数据复杂度(以条件熵度量)提升稳定性。与BPE-Dropout、回译和n-best采样等鲁棒性技术对比实验显示,模型稳定性与训练分布简化程度存在相关性。
意义与展望
随着大型神经网络广泛用于生成任务,控制模型产生更鲁棒、一致和稳定的输出至关重要。本研究为人工智能实现优雅演进提供了技术路径。