ICLR:深度学习为何有效及其局限性?
在今年的国际学习表征会议(ICLR)上,某机构学者、宾夕法尼亚大学放射学与电气工程教授担任高级领域主席,负责监督评审团队评估会议论文提交。其团队重点关注的主题是深度学习理论。
“虽然表示学习和深度学习已取得惊人成功并在多个应用领域产生显著成果,但深度网络仍是黑箱,“教授解释道。“网络设计仍是一门艺术,每个数据集都需要大量试错。因此,深度学习数学领域旨在通过定理和数学证明来保证深度网络的性能。”
双重下降现象
深度学习理论中近期备受关注的两个主题之一是双重下降现象。传统观点认为,神经网络规模需根据具体问题和训练数据量精细调整。网络过小无法学习复杂模式,过大则会导致记忆训练集答案的过拟合问题。
随着网络规模增长,测试集错误率首先下降,但达到某点后因过拟合开始上升。然而近年多项研究发现,当网络持续扩大时,错误率会再次下降——这就是无人能完全解释的双重下降现象。
“错误率随模型规模增大先降后升,在达到插值极限时达到峰值,此时训练误差可降为零因为网络足以记忆数据。但此后测试误差再次下降,大量论文试图解释这一现象。”
神经正切核方法
另一趋势是基于神经正切核的新分析方法。“2000年左右我们使用核方法进行学习,即通过固定嵌入将数据映射到高维空间。深度学习可视为学习这种嵌入的过程。”
“神经正切核机制——一种初始化方式、网络类型和训练模式——在此机制下可用核方法来近似深度网络的学习动态。虽然该机制非常不现实(如无限宽度网络或训练中权重变化微小),但在这种特殊设定下更容易理解网络行为。当前趋势是如何摆脱这些不现实假设,承认权重在训练中必须改变的实质问题。”
表示学习的局限性
尽管深度学习已主导机器学习领域,但表示学习存在明显局限。在数据或标签稀缺的领域(如医疗领域),领域知识仍然至关重要。
“当项目需要白细胞分类时,不可能获取数百万细胞视频并由病理学家逐个标注。我们只能获得血液检测的浓度结果这种弱标签。但领域专家通过化学提纯技术可获得单一类型细胞样本,从而创建有效标签。”
“如果团队全是数据科学家,容易认为只需更大网络和更多数据。但真正解决问题需要从实际需求出发,并不总是需要更多数据和标注。”
本文基于ICLR 2023会议讨论内容,探讨深度学习理论的最新进展与挑战。