通过简单重归一化策略稳定锐度感知最小化
摘要
近年来,锐度感知最小化(SAM)因其在提升泛化性能方面的显著效果而广受关注。然而与随机梯度下降(SGD)相比,SAM更容易陷入鞍点,从而导致性能下降。为解决该问题,本文提出了一种简单的重归一化策略——稳定SAM(SSAM),使下降步骤的梯度范数与上升步骤保持一致。该策略易于实现,可灵活集成到SAM及其变体中,且几乎不增加计算成本。
通过凸优化和学习理论的基础工具,本文还对锐度感知训练进行了理论分析,发现与SGD相比,SAM的有效性仅在有限的学习率范围内得到保证。相比之下,SSAM扩展了学习率的适用范围,通过微小修改即可持续优于SAM。最后,在多个代表性数据集和任务上验证了SSAM的改进性能。