深度残差网络在大深度区域的扩展
深度残差网络(ResNets)在复杂机器学习任务中实现了最先进的成果。然而,这些架构的卓越性能依赖于需要精心设计的训练过程,以避免梯度消失或爆炸,尤其是在深度L增加时。尽管广泛讨论的策略包括通过因子αL缩放每层的输出,但如何缓解此问题尚未达成共识。
在概率设定中表明,使用标准的独立同分布初始化时,唯一的非平凡动态对应于αL=1/√L——其他选择会导致爆炸或恒等映射。在连续时间极限中,该缩放因子对应于神经随机微分方程,与深度残差网络是神经常微分方程离散化的广泛解释相反。相比之下,在后一种区域中,稳定性是通过特定的相关初始化和αL=1/L获得的。
分析表明,缩放和权重作为层索引函数的正则性之间存在强烈的相互作用。最后,在一系列实验中,展示了由这两个参数驱动的连续区域范围,它们共同影响训练前后的性能。
[abs][pdf][bib] [code]