防止NLP模型更新在特定任务上性能倒退的技术

防止更新的NLP模型在特定任务上性能倒退

利用旧模型对新模型的输出进行重排序，可以提高向后兼容性。

机器学习模型需要定期更新以提高性能，但重新训练模型存在风险，例如失去向后兼容性或出现行为回归，即模型在平均性能提升的同时，在特定任务上出现倒退。这种情况常常阻碍了最先进的机器学习模型在生产AI系统中的快速采用。

先前关于防止模型回归的研究主要集中在分类任务上。但这些技术未能很好地推广到结构化预测任务，如自然语言解析（将输入句子映射为结构化表示的任务）。在结构化预测中，任何局部预测的差异都会导致全局结构不兼容。即使解析器共享相同的分解范式，参数化和训练程序的差异仍可能导致显著的行为不一致。

在NeurIPS会议上发表的一篇论文中，我们探索了一种名为向后兼容重排序(BCR)的新训练方法，该方法能更好地适应结构化预测。BCR采用了判别式重排序的思想，这是一种提高解析准确度的知名方法。具体而言，我们将旧模型作为判别式重排序器，对新模型产生的n个最佳假设进行评分。

为了量化向后兼容性，我们扩展了负翻转率(NFR)的概念，即更新模型在先前成功执行的任务上出现倒退的比率，同时在全局和局部预测层面上测量回归误差。我们还引入了负翻转影响(NFI)作为相对兼容性度量，定义为负翻转与总预测错误的比率。

在依存句法分析和会话语义分析两个自然语言解析任务上，与最先进的解析模型相比，我们的方法在不影响新模型准确性的情况下，持续降低了NFR和NFI。传统方法如知识蒸馏和模型集成分别实现了3%和28%的NFI相对降低，而BCR在所有模型更新设置中平均实现了58%的NFI相对降低。

解析模型的输出是一个表示所有可能解析及其概率的图。我们提出了一种称为dropout-p采样的新方法，用于解码n个最佳候选解析。该方法在推理过程中使用dropout率为p的随机节点失活，在不牺牲质量的情况下增加了输出的异质性。

与传统采样方法相比，dropout-p采样具有以下优势：(1)保持默认解码算法不变；(2)可视为全局采样而非局部逐步采样；(3)适用性不限于序列生成模型。

对于dropout-p采样，解码步骤的总体计算开销随候选数量线性增长，但不同的采样运行可以并行完成。实验结果显示，在依存句法分析任务中，解码和重排序速度分别为每秒171句和244句；在语义解析任务中，重排序速度比解码快约五倍。

这些研究成果为实现平滑无回归的机器学习更新提供了新思路，使AI能够随时间优雅地进化。我们相信这些发现具有通用性，在某中心和更广泛领域都有实际应用价值。