几何深度学习:统一机器学习"动物园"
机器学习正经历爆发式增长,推动生物化学、物理、材料科学和医学等领域的突破。帝国理工学院计算系机器学习与模式识别主席迈克尔·布朗斯坦教授处于这一增长的中心,他利用开创性机器学习技术推动药物设计、揭示食物的抗癌特性,甚至解码鲸鱼语言。
统一深度学习"动物园"
深度学习作为机器学习的子集,在过去十年中彻底改变了学术界和工业界。布朗斯坦表示,该领域的巨大普及导致了针对不同类型数据的各种深度学习架构激增。
“在深度学习领域,我们拥有这个不同神经网络架构的’动物园’:卷积网络用于图像,Transformer用于文本序列——这样的例子不胜枚举。通常很难看出不同方法之间的关系,因为太多东西被重新发明和重新包装。”
作为今年5月3日开始的国际学习表征会议(ICLR)仅有的八位特邀演讲者之一,布朗斯坦将鼓励更广泛的机器学习社区从更广阔的视角看待他们的领域,这个视角同时兼具古老与新颖,并受到几何学的启发。
布朗斯坦说,各种深度学习架构都可以使用对称性和不变性的基本原理推导出来——这些是现代几何学和物理学的基石。“这种几何方法提供了一套强大的统一原则,许多流行的深度学习架构都是其特例。我们可以使用这个共同镜头来统一这个动物园。我们在最近与Joan Bruna、Taco Cohen和Petar Veličković合著的文本中展示了这一点。”
图神经网络的多功能应用
布朗斯坦最近的深度学习工作大多涉及图神经网络。“图本质上是网络的数学表示,它是对几乎所有事物的强大抽象,从体内的分子及其相互作用,到社交网络用户及其相互关系。”
因此,图神经网络非常多功能。2018年,在某中心机器学习研究奖的支持下,布朗斯坦利用图来检测社交媒体网络上的错误信息。
创新蛋白质设计
布朗斯坦表示,基于图的深度学习"最酷和最有前景的应用"之一是在生物科学和药物发现与开发领域。他与EPFL蛋白质设计与免疫工程实验室合作开展的工作关键部分,涉及基于机器学习的新型蛋白质设计研究,这些蛋白质有潜力作为新药物。
传统药物与体内靶蛋白表面的口袋样位点结合。这种结合可能随后激活有益的化学反应来对抗疾病或阻断有害的疾病过程。
许多有前景的治疗靶点涉及蛋白质之间的相互作用,如"免疫检查点"。这些检查点存在是为了防止我们自身的免疫系统破坏体内的健康细胞,但在某些情况下,系统会出现问题,允许癌细胞逃避检测。
免疫检查点抑制剂——2018年获得诺贝尔奖认可的抗癌新治疗方法——通过阻止检查点蛋白与其伴侣蛋白结合,使免疫系统能够杀死癌细胞。设计此类抑制剂的困难之一在于相应蛋白质的界面是平坦的,没有典型的口袋样结构,使得传统小分子无法将其作为药物靶点。
然而,在过去的几十年里,一种名为"生物制剂"的新药物被设计出来应对癌症治疗中的这一挑战。生物制剂是更大、更复杂的分子——以蛋白质、肽和抗体的形式——因此比传统药物更难生产。然而,它们彻底改变了一些晚期癌症患者的预后。
布朗斯坦和他的合作者正在使用图神经网络来找出新型蛋白质的形状,这些蛋白质随后可以被合成以与这些平坦表面结合。
“我们使用几何神经网络,将蛋白质建模为分子表面,可以预测两个蛋白质是否会结合以及在何处结合,“他说。“这使我们能够构建一个很可能与靶标结合的新蛋白质。”
这不仅仅是理论。布朗斯坦的合作者已经合成了这些新型蛋白质,并确认他们的设计在现实世界中是有意义的。
“我不是说我们明天就会在临床中使用这些药物,但我们现在有一个数据驱动的计算流程,使我们能够预测蛋白质的特性,并构建具有所需功能的蛋白质,“他说。
他们称这种技术概念为分子表面相互作用指纹(MaSIF),布朗斯坦为第一篇标题中包含"几何深度学习"并出现在主要生物期刊封面上的论文感到自豪(2020年2月的《自然方法》期刊)。
高性能计算的基础支持
像这样的计算流程需要显著的计算能力和广泛的实验,这就是为什么布朗斯坦的新研究奖项资助对他的研究至关重要。
“云计算服务至关重要,因为当我们运行这些实验时,我们需要许多GPU虚拟实例,它使我们能够快速扩展实验,“他说。“例如,当我们需要调整神经网络参数或同时运行多个深度学习架构时,我们可以创建的虚拟机数量是无限的。没有这种我们大量利用的能力,我的工作将不可能完成。这就是现代机器学习必须的完成方式。”
虽然布朗斯坦主要使用他的研究奖项来获得高性能计算能力,但他也被某中心服务套件中的其他AI/ML工具所吸引。“我们已经开始在某平台的开放源代码深度图库中试验一些关于图深度学习的项目,“他指出。
营养的"暗物质”
布朗斯坦还一直在应用他的技术和高性能计算,寻找他所谓的"营养暗物质”——天然存在于食物中、可能有助于预防和对抗疾病,但人们了解甚少的各种化学类型。
使用由已知抗癌作用的药物分子组成的训练数据集,布朗斯坦和他的合作者训练了一个基于图的分类器,最终预测了250种常见食物成分的抗癌特征。这项工作的成果是一个"食物地图”,揭示了每种食物的抗癌潜力,按其含有的抗癌药物样分子水平评级。
“我们发现了一些突出的冠军,我们称之为’超级食物’,“布朗斯坦说。
对茶爱好者以及包括芹菜、鼠尾草和柑橘类水果在内的食物粉丝来说,结果是个好消息。这样的工作也预示着机器学习在人工智能驱动的营养计划开发中的新生作用,这些计划可能在预防和治疗各种健康状况中发挥作用。
解码鲸鱼通信项目
但也许布朗斯坦当前最引人入胜的热情是项目CETI,这是一个雄心勃勃的国际合作项目,也是2020年Audacious Project奖的获得者,将应用机器学习技术试图解读抹香鲸的通信。
该项目将使用被动传感器阵列和非侵入性机器人来观察和监听加勒比海抹香鲸种群。一旦收集到大量声学和行为数据,将采用先进的机器学习来理解这些宏伟生物的互动、发声和行为模式。
“项目CETI是一生一次的机会,“布朗斯坦在关于该项目的演示中说。“我可以毫不夸张地说,这可能是我参与过的最疯狂的登月计划。”