提升机器翻译的鲁棒性、一致性与稳定性

神经机器翻译（NMT）依赖过度参数化的深度神经网络，这些模型规模庞大却持续随参数增长提升性能。然而，此类模型存在脆弱性：预测易受微小输入变化影响，重训练可能导致输出显著差异，尤其当用户依赖下游任务输出时，模型对相同输入段突然产生更差结果的情况尤为突出。

模型惯性研究

在国际学习表征会议（ICLR）发表的研究中，我们探讨了模型鲁棒性、一致性与更新稳定性（统称为模型惯性）问题。发现使用伪标签数据训练（PLT）的技术具有改善模型惯性的未充分报道的副作用。

研究针对低资源与高资源语言的双向翻译对（如英↔德、英↔俄、英↔日），PLT在所有场景中均提升模型惯性。同时提出生成模型中衡量回归（即更新模型在特定任务上性能倒退）的方法，并证明PLT可减少此类回归。

实验涵盖机器翻译中常见的PLT变体：

研究提出分布简化效应假说：PLT通过降低训练数据复杂度（以条件熵度量）提升稳定性。与BPE-Dropout、回译和n-best采样等鲁棒性技术对比实验显示，模型稳定性与训练分布简化程度存在相关性。

随着大型神经网络广泛用于生成任务，控制模型产生更鲁棒、一致和稳定的输出至关重要。本研究为人工智能实现优雅演进提供了技术路径。