提升机器翻译鲁棒性与稳定性的伪标签训练技术

提升机器翻译的鲁棒性、一致性和稳定性

与许多其他机器学习应用一样，神经机器翻译受益于过度参数化的深度神经模型——这些模型如此之大，似乎存在过拟合风险，但其性能却随着参数数量的增加而持续提升。最近，更大的模型在翻译质量方面取得了显著改进，但与其他应用中使用的模型一样，NMT模型也很脆弱：预测对小的输入变化很敏感，并且在重新训练模型时，模型预测可能会出现显著变化。

尤其令人不适的是，模型在相同的输入片段上突然产生更差输出的情况。虽然这些效应早先在分类任务中已有研究，但在生成任务中尚未得到充分探索。

模型惯性研究

在最近提交给国际学习表征会议的论文中，我们研究了模型对更新的鲁棒性、一致性和稳定性问题——我们将这组特性称为模型惯性。我们发现，在模型训练中使用伪标记数据的技术具有改善模型惯性的未充分报道的副作用。

实验方法

在我们的实验中，我们研究了机器翻译中常见的几种伪标签训练变体：

自训练/前向翻译：通过翻译单语数据将未标记数据或单语数据制成并行数据
知识蒸馏：使用较大模型对训练数据进行伪标记，并在伪标记和并行训练数据的组合上训练较小模型

关键发现

鲁棒性改进：我们测试了添加伪标记数据对输入微小变化鲁棒性的影响。通过研究随机替换字符的合成拼写错误和自然发生的语法错误，发现使用伪标记数据训练的模型更加一致，且这不是训练数据量或教师模型大小的函数。

稳定性提升：研究了PLT如何在增量更新下产生更稳定的模型。即使是这样微小的更新，也只有不到10%的输出保持不变。包含伪标记数据几乎使精确匹配的输出数量翻倍，并将稳定性提高了约20%。

减少负翻转：使用人工评估和自动评估方法，发现PLT方法在目标错误类别和通用质量指标方面减少了负翻转的数量。

分布简化假说

观察到使用伪标记数据训练的模型惯性改善后，我们假设这种改进来自于与非自回归机器翻译中观察到的分布简化效应类似的机制。通过比较伪标签训练与其他已知产生更鲁棒模型的技术，发现模型稳定性与通过条件熵测量的更简单训练分布相关。

随着越来越大的神经网络被广泛用于解决各种生成任务，控制这些模型以产生更鲁棒、一致和稳定的输出变得至关重要。我们希望通过分享研究结果，能够帮助实现人工智能随时间优雅演进的目标。