优雅AI:让训练系统优雅演进
随着基于机器学习的决策系统快速发展,我们发现仅让系统单独表现优异已不足够。它们还需要与前辈系统和谐共处。当我们用新训练的分类器替换旧分类器时,应当期待平稳过渡和决策权力的和平交接。
模型更新的挑战
在某中心云服务中,我们持续改进基于学习的分类系统性能。性能通常通过在代表未来使用场景的测试数据上的平均误差来衡量。虽然降低平均误差令人兴奋,但新模型可能在显著提升平均性能的同时,引入旧模型不曾出现的错误。这些错误可能罕见但危害极大,甚至抵消改进模型带来的益处。
在某些情况下,构建在模型之上的后处理流程可能崩溃;在另一些情况下,用户已习惯旧系统行为,任何新引入的错误都会导致感知上的性能"回归"。
向后兼容表示学习
当面临客户降低重新索引数据成本的需求时,我们首次应对这一挑战。当时该领域尚无相关文献。我们训练深度学习模型以最小化平均误差,同时使用旧模型的"分类器头部"——即发出最终分类决策的最后几层。换句话说,我们强制新模型计算的数据表示与旧模型处于相同空间,从而无需重新索引旧数据即可使用相同的聚类或决策规则。
这种方法使客户能够立即使用新模型,无需重新索引时间和成本,旧索引数据可与新数据结合使用。正如我们在去年计算机视觉与模式识别会议上发表的论文所述,这种方法确实有效。这是机器学习这一日益重要研究领域的首篇论文。
正向一致训练
对于需要比聚类更复杂后处理的服务,最小化模型更新引入的新错误数量至关重要。我们的团队将提出称为正向一致训练的方法,旨在训练新分类器时不引入相对于旧模型的新错误。这是实现回归约束训练的第一步。
正向一致训练不仅仅是强制新模型模仿旧模型(称为模型蒸馏的过程)。模型蒸馏会模仿旧模型,包括其错误;而我们只希望在旧模型正确时接近它。
即使平均误差已降至最低,仍可能通过交易错误来减少"负翻转率"——衡量相对于旧模型的新错误百分比。因此最小化负翻转率是独立于标准错误率的标准,正向一致训练代表了机器学习研究的新分支。
跨平台兼容性
当希望在不同资源约束的设备上部署相同系统时,会出现另一种不兼容问题。例如,在云端运行大型强大模型,在智能手机等边缘设备上运行其较小版本。
为确保兼容性,仅让较小模型近似大模型的精度是不够的;它们还需要近似其架构。我们将展示如何在不同平台间强制执行这种兼容性。
线性化探索
如果深度神经网络是线性系统,且训练包括最小化凸损失函数,以上所有问题将更易解决。虽然线性化深度神经网络的文献主要关注分析这些网络的行为,但其性能远低于完整的非线性非凸原始模型。
然而,我们最近证明,如果通过修改损失函数、模型和优化来正确进行线性化,可以训练出与非线性对应物性能相当的线性模型。通过将ReLu替换为leaky ReLu修改ResNet主干架构,将损失函数从交叉熵修改为最小二乘,并使用Kronecker分解进行预处理的优化修改,实现了这一突破。
我们期待继续探索这些发展如何带来更透明、更可解释和更"优雅"的AI系统。