防止更新的NLP模型在特定任务上性能倒退
利用旧模型对新模型的输出进行重排序,可以提高向后兼容性。
机器学习模型需要定期更新以提高性能,但重新训练模型存在风险,例如失去向后兼容性或出现行为回归,即模型在平均性能提升的同时,在特定任务上出现倒退。这种情况常常阻碍了最先进的机器学习模型在生产AI系统中的快速采用。
结构化预测中的模型回归问题
先前关于防止模型回归的研究主要集中在分类任务上。但这些技术未能很好地推广到结构化预测任务,如自然语言解析(将输入句子映射为结构化表示的任务)。在结构化预测中,任何局部预测的差异都会导致全局结构不兼容。即使解析器共享相同的分解范式,参数化和训练程序的差异仍可能导致显著的行为不一致。
向后兼容重排序(BCR)方法
在NeurIPS会议上发表的一篇论文中,我们探索了一种名为向后兼容重排序(BCR)的新训练方法,该方法能更好地适应结构化预测。BCR采用了判别式重排序的思想,这是一种提高解析准确度的知名方法。具体而言,我们将旧模型作为判别式重排序器,对新模型产生的n个最佳假设进行评分。
为了量化向后兼容性,我们扩展了负翻转率(NFR)的概念,即更新模型在先前成功执行的任务上出现倒退的比率,同时在全局和局部预测层面上测量回归误差。我们还引入了负翻转影响(NFI)作为相对兼容性度量,定义为负翻转与总预测错误的比率。
实验结果
在依存句法分析和会话语义分析两个自然语言解析任务上,与最先进的解析模型相比,我们的方法在不影响新模型准确性的情况下,持续降低了NFR和NFI。传统方法如知识蒸馏和模型集成分别实现了3%和28%的NFI相对降低,而BCR在所有模型更新设置中平均实现了58%的NFI相对降低。
Dropout-p采样方法
解析模型的输出是一个表示所有可能解析及其概率的图。我们提出了一种称为dropout-p采样的新方法,用于解码n个最佳候选解析。该方法在推理过程中使用dropout率为p的随机节点失活,在不牺牲质量的情况下增加了输出的异质性。
与传统采样方法相比,dropout-p采样具有以下优势:(1)保持默认解码算法不变;(2)可视为全局采样而非局部逐步采样;(3)适用性不限于序列生成模型。
推理速度
对于dropout-p采样,解码步骤的总体计算开销随候选数量线性增长,但不同的采样运行可以并行完成。实验结果显示,在依存句法分析任务中,解码和重排序速度分别为每秒171句和244句;在语义解析任务中,重排序速度比解码快约五倍。
这些研究成果为实现平滑无回归的机器学习更新提供了新思路,使AI能够随时间优雅地进化。我们相信这些发现具有通用性,在某中心和更广泛领域都有实际应用价值。