为什么动量法真正有效

梯度下降的局限性

梯度下降法通过反复执行小步长的梯度更新来最小化平滑函数：

$$w^{k+1} = w^k - \alpha \nabla f(w^k)$$

虽然该算法能保证收敛，但在存在病态曲率（即函数在不同方向上尺度差异显著）时性能会急剧下降。此时迭代要么在谷壁间震荡，要么以微小步长缓慢逼近最优点，收敛速度受限于条件数 $\kappa = \lambda_n / \lambda_1$（最大与最小特征值之比）。

动量法的核心思想

动量法通过引入“记忆”机制来加速收敛：

$$ \begin{aligned} z^{k+1} &= \beta z^k + \nabla f(w^k) \ w^{k+1} &= w^k - \alpha z^{k+1} \end{aligned} $$

当 $\beta=0$ 时退化为普通梯度下降；当 $\beta=0.99$（或更高）时，动量效应能显著提升优化速度，这种现象称为加速。

凸二次模型上的精确分析

在二次函数 $f(w) = \frac{1}{2}w^TAw - b^Tw$ 上，通过特征分解可得到闭式解。梯度下降的误差按 $(1-\alpha\lambda_i)^k$ 指数衰减，而动量法的动态由转移矩阵：

$$ R = \begin{pmatrix} \beta & \lambda_i \ -\alpha\beta & 1-\alpha\lambda_i \end{pmatrix} $$

的特征值 $\sigma_1, \sigma_2$ 控制。收敛速率取决于 $\max(|\sigma_1|, |sigma_2|)$，其允许的步长范围扩大为 $0 < \alpha\lambda_i < 2+2\beta$。

物理类比与临界阻尼

动量更新可视为离散化的阻尼谐振子仿真：

$y_i^k$ 对应速度，受阻尼因子 $\beta$ 影响
$\lambda_i x_i^k$ 对应弹簧恢复力
系统存在过阻尼（$\beta$ 太小）、欠阻尼（$\beta$ 太大）和临界阻尼（最优 $\beta$）三种状态

临界阻尼条件为 $\beta = (1-\sqrt{\alpha\lambda_i})^2$，此时收敛速率提升为 $1-\sqrt{\alpha\lambda_i}$（相比梯度下降的 $1-\alpha\lambda_i$ 有平方根改进）。

最优参数与理论极限

全局最优参数为： $$ \alpha = \left( \frac{2}{\sqrt{\lambda_1} + \sqrt{\lambda_n}} \right)^2, \quad \beta = \left( \frac{\sqrt{\lambda_n} - \sqrt{\lambda_1}}{\sqrt{\lambda_n} + \sqrt{\lambda_1}} \right)^2 $$

此时收敛速率从梯度下降的 $\frac{\kappa-1}{\kappa+1}$ 提升为 $\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}$，实现了条件数的平方根加速。

然而，Nesterov 下界证明动量法在某种意义上是线性一阶方法的最优算法，无法进一步超越。通过构造“最坏函数”（凸 Rosenbrock 函数）展示了信息传播的光锥效应：误差至少需要 $k$ 步才能传播到第 $k$ 个分量。

随机梯度与实际应用

在随机梯度设置下，动量法的性能分为两个阶段：

瞬态阶段：梯度噪声小于信号，动量加速有效
精细调优阶段：噪声主导，动量效果减弱

有趣的是，噪声反而可能起到隐式正则化作用，防止过拟合。

算法空间与扩展

动量法属于线性一阶方法族，其更新可展开为： $$ w^{k+1} = w^0 + \sum_{i=1}^k \Gamma_i^k \nabla f(w^i) $$

这类方法包括 ADAM、AdaGrad 等流行算法，但都受限于相同的理论下界。

当前研究正从多个角度理解动量法：

微分方程离散化视角
多项式逼近解释
几何理解（与椭圆法联系）
对偶理论推广

这些视角终将汇聚成对加速现象的完整理解。

动量优化算法的工作原理与数学解析

本文深入探讨了动量优化算法在机器学习中的工作原理，通过凸二次模型分析其数学基础，揭示动量如何加速收敛并改善病态曲率问题，同时对比梯度下降法并讨论最优参数选择及算法局限性。