深度学习为何有效及其极限探讨

本文探讨深度学习的双下降现象和神经正切核方法,分析其理论依据和实际应用中的局限性,为理解深度学习提供新视角。

ICLR: 深度学习为何有效及其极限?

在今年的国际学习表征会议(ICLR)上,宾夕法尼亚大学放射学和电气工程教授、某中心学者René Vidal担任高级领域主席,负责评估会议论文提交。Vidal表示,其团队重点关注的主题是深度学习理论。

“虽然表征学习和深度学习取得了巨大成功,并在许多应用领域产生了惊人成果,但深度网络仍是黑箱,“Vidal解释道。“设计深度网络仍是一门艺术;每个数据集都需要大量试错。因此,深度学习数学领域的目标是通过定理和数学证明来保证深度网络的性能。”

双下降现象

Vidal指出,深度学习理论中两个主题近期受到越来越多的关注。首先是所谓的双下降现象。AI领域的传统观点认为,神经网络规模必须根据问题和可用训练数据量精心调整。如果网络太小,就无法学习数据中的复杂模式;但如果太大,就可能直接记住训练集中所有正确答案——这是过拟合的典型案例——而无法泛化到新输入。

然而,过去几年多篇论文报告了令人惊讶的结果:随着网络继续增大,错误率再次下降。这就是双下降现象——目前尚无人确定其原因。

神经正切核

Vidal表示,深度网络理论的另一个有趣趋势涉及基于神经正切核的新分析方法。

“过去——比如2000年——我们通过所谓的核方法进行学习,“Vidal解释道。“核方法基于将数据嵌入到固定嵌入的非常高维空间,在那里一切看起来都是线性的。我们可以在该嵌入空间使用经典线性学习技术,但嵌入空间是固定的。”

“你可以将深度学习视为学习该嵌入——将输入数据映射到某个高维空间。事实上,这正是表征学习。神经正切核机制——一种初始化类型、一种神经网络类型、一种训练类型——是一种可以用核近似深度网络学习动态的机制。”

表征学习的局限

当ICLR于2013年创立时,它是研究人员探索机器学习方法替代方案的场所。然而如今,使用学习表征的深度学习已占据机器学习领域主导地位。

作为曾在某机构担任生物医学工程教授20年的人,Vidal对表征学习的局限性有深刻认识。他表示,对于某些应用,领域知识仍然至关重要。

“这发生在数据或标签可能不丰富的领域,“他解释道。“例如在医学领域,研究中可能只有100名患者,或者无法将数据放在网站上供所有人标注。”

“仅举一个具体例子,我曾有一个需要生成血液检测的项目,我们需要将白细胞分类为不同类型。没有人会拍摄数百万细胞的视频,也不会有病理学家像计算机视觉那样标注每个细胞进行目标检测。”

“因此我们只能获得血液检测的实际结果:浓度是多少?你可能有一百万个第一类、第二类和第三类细胞,只有这些非常弱的标签。但领域专家说,我们可以通过添加这些化学物质进行细胞纯化,然后离心等等,在这个样本中只得到一种类型的细胞。因此你现在可以假装有标签,因为我们知道带有不同标签的细胞无法在这种化学过程中存活。我们说’太棒了!'”

“如果与100%都是数据科学家和机器学习人员共事,他们倾向于认为只需要更大的网络和更多数据。但我认为,就像在某机构需要从客户角度逆向思考一样,你需要解决实际问题,而解决方案并不总是更多数据和更多标注。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计