为什么动量法真正有效
梯度下降的局限性
梯度下降法通过反复执行小步长的梯度更新来最小化平滑函数:
$$w^{k+1} = w^k - \alpha \nabla f(w^k)$$
虽然该算法能保证收敛,但在存在病态曲率(即函数在不同方向上尺度差异显著)时性能会急剧下降。此时迭代要么在谷壁间震荡,要么以微小步长缓慢逼近最优点,收敛速度受限于条件数 $\kappa = \lambda_n / \lambda_1$(最大与最小特征值之比)。
动量法的核心思想
动量法通过引入“记忆”机制来加速收敛:
$$ \begin{aligned} z^{k+1} &= \beta z^k + \nabla f(w^k) \ w^{k+1} &= w^k - \alpha z^{k+1} \end{aligned} $$
当 $\beta=0$ 时退化为普通梯度下降;当 $\beta=0.99$(或更高)时,动量效应能显著提升优化速度,这种现象称为加速。
凸二次模型上的精确分析
在二次函数 $f(w) = \frac{1}{2}w^TAw - b^Tw$ 上,通过特征分解可得到闭式解。梯度下降的误差按 $(1-\alpha\lambda_i)^k$ 指数衰减,而动量法的动态由转移矩阵:
$$ R = \begin{pmatrix} \beta & \lambda_i \ -\alpha\beta & 1-\alpha\lambda_i \end{pmatrix} $$
的特征值 $\sigma_1, \sigma_2$ 控制。收敛速率取决于 $\max(|\sigma_1|, |sigma_2|)$,其允许的步长范围扩大为 $0 < \alpha\lambda_i < 2+2\beta$。
物理类比与临界阻尼
动量更新可视为离散化的阻尼谐振子仿真:
- $y_i^k$ 对应速度,受阻尼因子 $\beta$ 影响
- $\lambda_i x_i^k$ 对应弹簧恢复力
- 系统存在过阻尼($\beta$ 太小)、欠阻尼($\beta$ 太大)和临界阻尼(最优 $\beta$)三种状态
临界阻尼条件为 $\beta = (1-\sqrt{\alpha\lambda_i})^2$,此时收敛速率提升为 $1-\sqrt{\alpha\lambda_i}$(相比梯度下降的 $1-\alpha\lambda_i$ 有平方根改进)。
最优参数与理论极限
全局最优参数为: $$ \alpha = \left( \frac{2}{\sqrt{\lambda_1} + \sqrt{\lambda_n}} \right)^2, \quad \beta = \left( \frac{\sqrt{\lambda_n} - \sqrt{\lambda_1}}{\sqrt{\lambda_n} + \sqrt{\lambda_1}} \right)^2 $$
此时收敛速率从梯度下降的 $\frac{\kappa-1}{\kappa+1}$ 提升为 $\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}$,实现了条件数的平方根加速。
然而,Nesterov 下界证明动量法在某种意义上是线性一阶方法的最优算法,无法进一步超越。通过构造“最坏函数”(凸 Rosenbrock 函数)展示了信息传播的光锥效应:误差至少需要 $k$ 步才能传播到第 $k$ 个分量。
随机梯度与实际应用
在随机梯度设置下,动量法的性能分为两个阶段:
- 瞬态阶段:梯度噪声小于信号,动量加速有效
- 精细调优阶段:噪声主导,动量效果减弱
有趣的是,噪声反而可能起到隐式正则化作用,防止过拟合。
算法空间与扩展
动量法属于线性一阶方法族,其更新可展开为: $$ w^{k+1} = w^0 + \sum_{i=1}^k \Gamma_i^k \nabla f(w^i) $$
这类方法包括 ADAM、AdaGrad 等流行算法,但都受限于相同的理论下界。
当前研究正从多个角度理解动量法:
- 微分方程离散化视角
- 多项式逼近解释
- 几何理解(与椭圆法联系)
- 对偶理论推广
这些视角终将汇聚成对加速现象的完整理解。