几何深度学习:统一机器学习架构的新方法
机器学习(ML)领域正经历爆炸性增长,该技术推动着生物化学、物理学、材料科学和医学等领域的突破性进展。Michael Bronstein教授处于这一增长的中心。作为伦敦帝国理工学院计算系机器学习与模式识别主席,Bronstein利用开创性的机器学习技术推动药物设计的边界,揭示食物的抗癌特性,甚至解码鲸鱼的语言交流。
深度学习领域的“动物园”问题
深度学习作为机器学习的一个子集,在过去十年中崛起,彻底改变了学术界和工业界。Bronstein指出,该领域的巨大普及导致针对不同类型数据的不同深度学习架构激增。“在深度学习领域,我们有着各种神经网络架构的‘动物园’:卷积网络用于图像,Transformer用于文本序列——名单还在不断增加。由于许多方法被重新发明和重新命名,通常很难看出不同方法之间的关系。”
因此,作为今年5月3日开始的国际学习表示会议(ICLR)仅有的八位受邀演讲者之一,Bronstein将鼓励更广泛的机器学习社区从一个更广阔的视角来看待他们的领域,这个视角既古老又新颖,并受到几何学的启发。
Bronstein表示,各种深度学习架构都可以使用对称性和不变性的基本原理推导出来——这些是现代几何学和物理学的基石。“这种几何方法提供了一套强大的统一原则,许多流行的深度学习架构都是其特例。我们可以使用这个共同视角来统一这个‘动物园’。我们在最近与Joan Bruna、Taco Cohen和Petar Veličković合著的文本中展示了这一点。”
图神经网络的多领域应用
Bronstein最近的深度学习工作主要涉及图神经网络。“图本质上是网络的数学表示,它是对几乎所有事物的强大抽象,从体内的分子及其相互作用,到社交网络用户及其相互关系,”他说。
因此,图神经网络非常多功能。2018年,在某机构机器学习研究奖的支持下,Bronstein利用图来检测社交媒体网络上的错误信息。
创新蛋白质设计
但基于图的深度学习“最酷和最有前景的应用”之一是在生物科学和药物发现与开发领域,Bronstein说。他与EPFL的Bruno Correia蛋白质设计与免疫工程实验室合作的一个关键部分,涉及基于机器学习的研究,设计可能作为新药物的新型蛋白质。
传统药物与体内目标蛋白质表面的口袋状位点结合。这种结合可能随后激活有益的化学反应来对抗疾病或阻断有害的疾病过程。
许多有前景的治疗靶点涉及蛋白质之间的相互作用,例如“免疫检查点”。这些检查点的存在是为了防止我们自身的免疫系统破坏体内的健康细胞,但在某些情况下,系统会出现问题,使癌细胞能够逃避检测。
免疫检查点抑制剂——一种2018年获得诺贝尔奖的新型癌症治疗方法——通过阻止检查点蛋白质与其伴侣蛋白质结合,使免疫系统能够杀死癌细胞。设计此类抑制剂的困难之一在于各自蛋白质的界面是平坦的,没有典型的口袋状结构,使它们无法被传统小分子“药物化”。
然而,在过去的几十年中,一种名为“生物制剂”的新型药物被设计出来以应对癌症治疗中的这一挑战。生物制剂是更大、更复杂的分子——以蛋白质、肽和抗体的形式——因此比传统药物更难生产。然而,它们彻底改变了一些晚期癌症患者的预后。
Bronstein和他的合作者正在使用图神经网络来计算出新型蛋白质的形状,这些蛋白质随后可以被合成以与这些平坦表面结合。“我们使用几何神经网络,将蛋白质建模为分子表面,可以预测两个蛋白质是否会结合以及在哪里结合,”他说。“这使我们能够构建一个很可能与目标结合的新蛋白质。”
这不仅仅是理论上的。Bronstein的合作者已经合成了这些新型蛋白质,并证实他们的设计在现实世界中是有意义的。“我不是说我们明天就会在诊所使用这些药物,但我们现在有一个数据驱动的计算管道,使我们能够预测蛋白质的特性,并构建具有所需功能的蛋白质,”他说。
他们称这种技术概念为分子表面相互作用指纹识别(MaSIF),Bronstein为第一篇标题中含有“几何深度学习”的论文出现在主要生物期刊(2020年2月的《自然方法》封面)上而感到自豪。
像这样的计算管道需要显著的计算能力和广泛的实验,这就是为什么Bronstein的新研究奖项资助对他的研究至关重要。“云计算服务至关重要,因为当我们运行这些实验时,我们需要许多GPU虚拟实例,它使我们能够快速扩展实验,”他说。“例如,当我们需要调整神经网络的参数或同时运行多个深度学习架构时,我们可以创建的虚拟机数量是无限的。没有这种我们大量利用的能力,我的工作将无法进行。这就是现代机器学习必须的方式。”
虽然Bronstein主要将他的研究奖项用于访问高性能计算,但他也被其他AI/ML工具所吸引。“我们已经开始在某机构SageMaker中为一些图深度学习项目实验开源深度图库,”他指出。
营养的“暗物质”
Bronstein还在应用他的技术和高性能计算来寻找他所谓的“营养的暗物质”——食物中自然存在的各种化学类型,可能有助于预防和对抗疾病,但人们对其了解甚少。
使用由已知抗癌作用的药物分子组成的训练数据集,Bronstein和他的合作者训练了一个基于图的分类器,最终预测了250种常见食物成分的抗癌 profiles。这项工作的一个产物是一个“食物地图”,揭示了每种食物的抗癌潜力,按其含有的抗癌药物类分子的水平评级。
“我们发现了突出的冠军,我们称之为‘超级食物’,”Bronstein说。结果对茶饮者以及芹菜、鼠尾草和柑橘类水果等食物的爱好者来说是个好消息。这样的工作也预示着机器学习在开发AI驱动的营养计划中的新兴作用,这些计划可能在预防和治疗各种健康状况中发挥作用。
解码鲸鱼语言
但也许Bronstein当前最引人入胜的热情是CETI项目,这是一个雄心勃勃的国际合作项目,也是2020年Audacious Project奖的获得者,将应用ML技术来解读抹香鲸的交流。
该项目将使用被动传感器阵列和非侵入性机器人来观察和聆听加勒比海抹香鲸种群。一旦收集到大量的声学和行为数据,将采用先进的ML来理解这些 majestic 生物的互动、发声和行为模式。
“CETI是一个千载难逢的机会,”Bronstein在关于该项目的演讲中说。“我可以毫不夸张地说,这可能是我参与过的最疯狂的 moonshot。”