深度残差网络在大深度区域的扩展技术

本文探讨深度残差网络在大深度区域中的扩展策略,分析不同缩放因子对梯度爆炸和恒等映射的影响,并通过概率设定证明唯一非平凡动态对应的缩放因子选择,揭示了权重正则性与层索引函数之间的强关联性。

深度残差网络在大深度区域的扩展

深度残差网络(ResNets)在复杂机器学习任务中实现了最先进的成果。然而,这些架构的卓越性能依赖于需要精心设计的训练过程,以避免梯度消失或爆炸,尤其是在深度L增加时。尽管广泛讨论的策略包括通过因子αL缩放每层的输出,但如何缓解此问题尚未达成共识。

在概率设定中表明,使用标准的独立同分布初始化时,唯一的非平凡动态对应于αL=1/√L——其他选择会导致爆炸或恒等映射。在连续时间极限中,该缩放因子对应于神经随机微分方程,与深度残差网络是神经常微分方程离散化的广泛解释相反。相比之下,在后一种区域中,稳定性是通过特定的相关初始化和αL=1/L获得的。

分析表明,缩放和权重作为层索引函数的正则性之间存在强烈的相互作用。最后,在一系列实验中,展示了由这两个参数驱动的连续区域范围,它们共同影响训练前后的性能。

[abs][pdf][bib] [code]

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计