机器学习破解疾病影响人体的密码

本文探讨了机器学习在生物医学领域的应用,重点介绍了如何通过算法分析基因数据加速疾病诊断和药物发现过程,包括 Therapeutics Data Commons 平台的构建及在罕见病研究和新冠疫情药物重定位中的实际应用。

破解疾病影响人体的密码

计算机科学家Marinka Zitnik在职业生涯早期面临一个生物医学难题:在12,000个基因中,哪些基因在模式生物对细菌感染的反应中起作用?这如同大海捞针。

当Zitnik将她设计的机器学习算法应用于生物医学数据时,它预测出最可能涉及的八个基因。实验室测试这些候选基因时,研究团队发现其中六个确实与感染有关。她的方法取得了显著成功。

这一转折点发生在2013年,引领了Zitnik十年机器学习研究之路。如今,作为哈佛医学院生物医学信息学助理教授,她专注于机器学习如何实现精准诊断以及新治疗方法的开发。在某中心研究奖的支持下,她通过在线平台Therapeutics Data Commons(TDC)致力于在全球范围内释放AI增强药物发现的潜力。

瓶颈与挑战

在Zitnik攻读博士期间,她发表了多篇机器学习论文,被多家生物医学机构的科学家阅读。许多机构邀请她到实验室合作,将她的算法应用于他们的数据。她与全球的临床医生、生物医学研究人员、遗传学家和计算机科学家合作,包括斯坦福大学和伦敦帝国理工学院。

与德克萨斯州休斯顿贝勒医学院的合作尤其令人鼓舞:12,000个基因的挑战。传统方法需要成千上万的筛选实验,逐个测试每个基因。Zitnik的算法的成功节省了大量时间和资源。

“那是我第一次看到将AI预测与实验室实验生物学工作结合,可以将实验产量提高一个数量级,”Zitnik说。

Therapeutics Data Commons

2019年,Zitnik抵达哈佛大学建立实验室,专注于两个可以从AI中受益的紧密相连的医学领域:一是机器学习如何基于多种信息(从遗传密码和血液测试结果到病史和生活方式数据)为患者提供准确诊断;二是为这些诊断识别和开发可能的治疗方法。

更重要的是,Zitnik希望在全球范围内释放AI增强医学的潜力。从早期与生物医学社区的合作中,她深知获取和整理高质量医学数据以训练ML模型的困难。她通过某中心研究奖利用某中心弹性计算云(EC2)和某机构ML部署工具,直面这些双重挑战,推出了Therapeutics Data Commons(TDC),这是一个国际倡议,旨在访问和评估跨治疗模式和发现阶段的AI能力。

TDC的核心是专注于药物发现和开发的开源数据集和最先进ML模型的集合,伴随更广泛的资源和工具生态系统,包括尖端ML模型的基准测试和排行榜。

“这是生物医学和生化研究人员与机器学习科学家之间的交汇点,”Zitnik说。“这是一个蓬勃发展的社区。”

TDC是世界上同类最大的开源平台。Zitnik与包括MIT、斯坦福大学、佐治亚理工学院、康奈尔大学、伊利诺伊大学厄巴纳-香槟分校和卡内基梅隆大学在内的合作机构运行它,并得到制药行业和科技公司的额外支持。TDC覆盖药物发现和开发的整个过程,从识别潜在治疗分子到优化和规划实验室实验。

该平台包含来自匿名电子健康记录、医学成像、基因组学、临床试验数据等的数据。生物医学研究人员可以使用TDC的数据,或带来自己的数据和挑战,与ML科学家合作,以加快药物发现速度,同时降低新药上市的巨大成本。Zitnik表示,它已被全球超过200,000名科学家使用。

罕见病的帮助

Zitnik还热衷于使用她的技术帮助罕见病患者和临床医生。世界上有超过7,000种罕见病,每种疾病已知病例数量少,但 collectively 影响许多人。AI能在这里提供帮助吗?

开发常见疾病的诊断模型通常需要来自数千名患者的数据,并标注该诊断。对于罕见病,这种标注的患者数据根本不存在。“这个问题不能通过投入更多资金来解决,”Zitnik说。“它需要新的思维方式。”

相反,Zitnik和她的团队,包括博士后Emily Alsentzer和研究生研究员Michelle Li,正在将医学原则和关于生物相互作用、化学、遗传学、患者症状和药物相互作用的先验科学知识纳入模型的神经架构中。

“这使我们能够使用非常少量的标注患者数据训练复杂的深度学习模型,有时甚至完全没有患者数据,”Zitnik说。

与哈佛领导的未诊断疾病网络(UDN)研究的合作表明这种方法有效。患有罕见遗传病且在当地无法诊断的人可以被转诊到UDN的临床和研究专家网络,涵盖美国12个临床站点。诊断可以解决患者的不确定性负担,并有望开启治疗的可能性。在迄今接受UDN研究的2,500名参与者中,627人已成功诊断——每个案例都是一场艰苦的胜利。

当Zitnik的团队将他们的模型应用于其中465名患者的医学数据时——排除了他们的实际诊断的数据集——结果令人震惊。模型被要求预测每位患者最可能致病的基因。对于四分之三的患者,致病基因在模型的前五个预测中。

“下一阶段是在现实世界环境中使用它,协助临床团队评估未诊断患者,”Zitnik说。

该工具引起了医学界的极大兴趣。Zitnik正计划与波士顿和以色列的诊所进行试点研究,这些诊所不属于UDN,以进一步评估该模型作为新病例的诊断推荐工具。Zitnik还在与几个以个别罕见病为中心的患者主导基金会讨论,旨在为他们提供一套用户友好工具。

某机构Web服务支持这一点。“当我们在生物医学或临床环境中部署模型时,我们使用SageMaker,”Zitnik说。某中心SageMaker可用于将ML模型转换为独立工具公开发布,例如,或将算法放入基于云的容器中与 collaborators 共享。

云计算对生物医学数据的力量

更广泛地说,云计算对Zitnik实验室的工作至关重要。

“我们需要在许多不同类型的健康数据上反复训练我们的模型,以确保它们在 diverse 患者群体、 diverse 化学结构等上表现良好,即使输入数据相对混乱,”Zitnik说。她的某中心研究奖提供了某机构Web服务积分,用于访问这些训练需求旺盛的模型所需的高性能并行计算。

除了推出TDC,Zitnik的某中心奖还支持离散研究项目。2021年,当COVID-19大流行在全球肆虐时,Zitnik和她的团队想知道AI方法在识别现有药物以重新用于治疗新兴病原体方面的效果如何。与从头开发药物相比,识别市场上或处于后期临床试验阶段的药物可以节省多年时间,并 potentially 节省数十亿美元。

Zitnik的团队首先在人类相互作用组上训练了一个几何深度学习模型——人体内蛋白质之间完整物理相互作用网络。这些网络告诉我们人类细胞机制的哪些部分受到给定药物分子的影响。

一旦模型训练完成,他们输入了超过7,500种现有药物及其作用机制的数据。在这些药物中,模型预测并排名了6,340种候选药物。生物医学研究人员在感染COVID-19的细胞上筛选了前918条建议,发现77种药物对病毒有强或弱影响。他们使用这些结果微调模型的预测,最终在人类细胞中筛选排名最高的药物。他们确定了六种减少病毒感染的药物。其中,原则上四种可以重新用于治疗COVID-19。

“这是一个令人兴奋的例子,说明AI如何加速药物发现和开发。我们能够将这类研究的时间线——从数据收集到最终模型和预测在实验室测试——从几年压缩到几个月,”Zitnik说。在这种情况下是三个月。

这本身令人印象深刻,但实验也揭示了AI方法力量的另一个方面。

级联网络效应

药物发现的一个成熟策略是利用分子对接。如果感染病原体需要与人类细胞表面的特定蛋白质对接以增殖,那么与该蛋白质对接的治疗分子可以阻断病原体的作用。确实,Zitnik的模型确实识别出一种与SARS-CoV-2靶向相同蛋白质结合的药物。但关键是——它还发现了76种通过间接系统效应成功减少病毒感染的药物。

“这项工作的最大成果之一是发现了这组似乎通过级联网络效应起作用的药物,间接影响病毒攻击的蛋白质,”Zitnik说。“我们称这些为网络药物。如果没有如图神经网络这样的算法,它们可以使用基于生物医学知识的原理进行间接观察和推理,我们将无法识别此类药物。”

这种由生物医学AI驱动的发现新方法让Zitnik对未来感到兴奋。她看到这些工具有潜力生成更准确的科学假设, tailored 到个别细胞、疾病和患者,并帮助弥合实验室和临床环境之间的差距:

“我迫不及待想看到这些发展如何继续塑造我们的世界。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计