防止更新的NLP模型在特定任务上性能倒退
通过使用旧模型对新模型的输出进行重排,可以提高向后兼容性。
背景
机器学习(ML)模型需要定期更新以提高性能,但重新训练模型存在风险,例如失去向后兼容性或行为回归,即模型在平均改进的同时,在特定任务上性能倒退。这一困境常常阻碍了最先进的ML模型在生产AI系统中的快速采用。
结构化预测的挑战
先前防止模型回归的工作主要集中在分类任务上。但由此产生的技术未能很好地推广到结构化预测任务,例如自然语言解析,它将输入句子映射为结构化表示(通常是语法或语义,以图或树形式表示)。在结构化预测中,任何局部预测的差异都会导致不兼容的全局结构。即使解析器共享相同的分解范式,参数化和训练程序的差异仍可能导致显著的行为不一致。
向后兼容重排(BCR)方法
在今年的神经信息处理系统会议(NeurIPS)上提交的一篇论文中,探索了一种名为向后兼容重排(BCR)的新向后兼容模型训练方法,该方法能更好地推广到结构化预测。BCR采用了判别式重排的思想,这是一种提高解析准确性的知名方法。具体来说,利用旧模型作为判别式重排器,对新模型产生的n个最佳假设进行评分。
为了量化向后兼容性,扩展了负翻转率(NFR)的概念,即更新模型在先前成功执行的任务上性能倒退的比率,在全局和局部预测级别上测量回归错误。进一步引入了负翻转影响(NFI)作为相对兼容性度量,定义为负翻转与总预测错误的比率。
评估结果
为了评估该方法,在两个自然语言解析任务(依赖解析和会话语义解析)上将其与最先进的解析模型进行了比较。观察到在不影响新模型准确性的情况下,NFR和NFI均一致减少。先前的方法,如知识蒸馏和模型集成,分别实现了3%和28%的NFI相对减少。相比之下,BCR能够在所有模型更新设置中减少NFR和NFI,NFI平均相对减少58%。
Dropout-p采样
解析模型的输出是一个图,表示输入的所有可能解析及其概率。排名最高的解析通常是图中最可能的路径。但有多种方法可以解码n个最佳候选解析。有趣的是,发现传统方法——束搜索、top-k和核/top-p采样——无法使BCR发挥其全部潜力。简单最大化概率的方法产生的候选过于同质,而随机采样图中路径的方法产生的候选过于弱。
提出了一种新的解码n个最佳候选的方法,称为dropout-p采样。在深度学习中,dropout是一种广泛使用的正则化技术,其中神经网络中的一些神经元在训练过程中随机丢弃。这防止网络过度依赖特定的推理路径,从而可能防止其良好泛化。通常,dropout仅在训练期间使用。然而,在dropout-p采样中,在推理期间使用它,丢弃率为p。在推理期间停用一些节点增加了输出的异质性而不牺牲质量。
与传统采样方法相比,dropout-p采样具有以下优势:(1)保持默认解码算法不变;(2)可以视为全局采样而不是在每个解码步骤局部采样,可能提高输出结构的形式性;(3)其适用性不限于序列生成模型。
推理速度
对于dropout-p采样,解码步骤的总体计算开销随候选数量线性增长,但不同的采样运行可以并行进行。实验了两种不同的依赖解析器,deepbiaf和stackptr。使用相同的推理硬件(一个Nvidia V100 GPU)和相同的批量大小32,deepbiaf的解码和重排速度分别为每秒171和244句,stackptr为每秒64和221句。
在语义解析任务上,发现重排速度比解码快约五倍。实际上,重排步骤可以更快,因为它通常允许更大的批量大小。
总结
分享了在实现平滑和无回归的ML更新之旅中的有希望的新结果,其中AI随着时间的推移优雅进化。相信这些发现是通用的,并在某中心及其他地方具有广泛的现实应用。
研究领域: 机器学习, 会话AI
标签: 持续学习, 自然语言处理(NLP), 自然语言理解(NLU), NeurIPS