非凸随机Bregman近端梯度法及其在深度学习中的应用
摘要
最小化非凸复合目标函数的随机梯度方法通常依赖于可微分部分的Lipschitz平滑性假设,但该假设在二次逆问题和神经网络训练等重要问题类别中往往不成立,导致算法在理论和实践中出现不稳定。为解决此问题,提出了一类仅需平滑自适应性的随机Bregman近端梯度(SBPG)方法。SBPG使用Bregman邻近度量替代随机梯度下降(SGD)中的二次近似,提供了更好的近似模型,能够处理非凸目标函数中的非Lipschitz梯度。
方法特性
建立了原始SBPG的收敛性质,证明其在非凸设置下达到最优样本复杂度。在二次逆问题上的实验结果表明,SBPG在步长选择和初始点敏感性方面具有鲁棒性。
动量扩展版本
进一步提出了基于动量的变体MSBPG,通过放宽小批量大小要求同时保持最优oracle复杂度来增强收敛性。将MSBPG应用于深度神经网络训练,利用多项式核函数确保损失函数的平滑自适应性。
实验验证
在基准数据集上的实验结果证实了MSBPG在训练神经网络方面的有效性和鲁棒性。鉴于其在大规模优化中与SGD相比可忽略的额外计算成本,MSBPG有望成为未来应用的通用开源优化器。
引用信息:Kuangyu Ding, Jingyang Li, Kim-Chuan Toh; 26(39):1−44, 2025