防止更新的NLP模型在特定任务上性能倒退

通过使用旧模型对新模型的输出进行重排，可以提高向后兼容性。

背景

机器学习（ML）模型需要定期更新以提高性能，但重新训练模型存在风险，例如失去向后兼容性或行为回归，即模型在平均改进的同时，在特定任务上性能倒退。这一困境常常阻碍了最先进的ML模型在生产AI系统中的快速采用。

结构化预测的挑战

先前防止模型回归的工作主要集中在分类任务上。但由此产生的技术未能很好地推广到结构化预测任务，例如自然语言解析，它将输入句子映射为结构化表示（通常是语法或语义，以图或树形式表示）。在结构化预测中，任何局部预测的差异都会导致不兼容的全局结构。即使解析器共享相同的分解范式，参数化和训练程序的差异仍可能导致显著的行为不一致。

向后兼容重排（BCR）方法

在今年的神经信息处理系统会议（NeurIPS）上提交的一篇论文中，探索了一种名为向后兼容重排（BCR）的新向后兼容模型训练方法，该方法能更好地推广到结构化预测。BCR采用了判别式重排的思想，这是一种提高解析准确性的知名方法。具体来说，利用旧模型作为判别式重排器，对新模型产生的n个最佳假设进行评分。

为了量化向后兼容性，扩展了负翻转率（NFR）的概念，即更新模型在先前成功执行的任务上性能倒退的比率，在全局和局部预测级别上测量回归错误。进一步引入了负翻转影响（NFI）作为相对兼容性度量，定义为负翻转与总预测错误的比率。

评估结果

为了评估该方法，在两个自然语言解析任务（依赖解析和会话语义解析）上将其与最先进的解析模型进行了比较。观察到在不影响新模型准确性的情况下，NFR和NFI均一致减少。先前的方法，如知识蒸馏和模型集成，分别实现了3%和28%的NFI相对减少。相比之下，BCR能够在所有模型更新设置中减少NFR和NFI，NFI平均相对减少58%。

Dropout-p采样

解析模型的输出是一个图，表示输入的所有可能解析及其概率。排名最高的解析通常是图中最可能的路径。但有多种方法可以解码n个最佳候选解析。有趣的是，发现传统方法——束搜索、top-k和核/top-p采样——无法使BCR发挥其全部潜力。简单最大化概率的方法产生的候选过于同质，而随机采样图中路径的方法产生的候选过于弱。

提出了一种新的解码n个最佳候选的方法，称为dropout-p采样。在深度学习中，dropout是一种广泛使用的正则化技术，其中神经网络中的一些神经元在训练过程中随机丢弃。这防止网络过度依赖特定的推理路径，从而可能防止其良好泛化。通常，dropout仅在训练期间使用。然而，在dropout-p采样中，在推理期间使用它，丢弃率为p。在推理期间停用一些节点增加了输出的异质性而不牺牲质量。

与传统采样方法相比，dropout-p采样具有以下优势：（1）保持默认解码算法不变；（2）可以视为全局采样而不是在每个解码步骤局部采样，可能提高输出结构的形式性；（3）其适用性不限于序列生成模型。

推理速度

对于dropout-p采样，解码步骤的总体计算开销随候选数量线性增长，但不同的采样运行可以并行进行。实验了两种不同的依赖解析器，deepbiaf和stackptr。使用相同的推理硬件（一个Nvidia V100 GPU）和相同的批量大小32，deepbiaf的解码和重排速度分别为每秒171和244句，stackptr为每秒64和221句。

在语义解析任务上，发现重排速度比解码快约五倍。实际上，重排步骤可以更快，因为它通常允许更大的批量大小。

总结

分享了在实现平滑和无回归的ML更新之旅中的有希望的新结果，其中AI随着时间的推移优雅进化。相信这些发现是通用的，并在某中心及其他地方具有广泛的现实应用。

研究领域: 机器学习, 会话AI
标签: 持续学习, 自然语言处理（NLP）, 自然语言理解（NLU）, NeurIPS