深度残差网络在大深度区域的扩展

深度残差网络（ResNets）在复杂机器学习任务中实现了最先进的成果。然而，这些架构的卓越性能依赖于需要精心设计的训练过程，以避免梯度消失或爆炸，尤其是在深度L增加时。尽管广泛讨论的策略包括通过因子αL缩放每层的输出，但如何缓解此问题尚未达成共识。

在概率设定中表明，使用标准的独立同分布初始化时，唯一的非平凡动态对应于αL=1/√L——其他选择会导致爆炸或恒等映射。在连续时间极限中，该缩放因子对应于神经随机微分方程，与深度残差网络是神经常微分方程离散化的广泛解释相反。相比之下，在后一种区域中，稳定性是通过特定的相关初始化和αL=1/L获得的。

分析表明，缩放和权重作为层索引函数的正则性之间存在强烈的相互作用。最后，在一系列实验中，展示了由这两个参数驱动的连续区域范围，它们共同影响训练前后的性能。