某中心开源生物知识图谱对抗新冠肺炎
新冠肺炎的快速传播凸显了对快速有效药物发现的迫切需求。药物重定位是一种利用现有药物开发新治疗适应症的药物发现范式,相对于从头开发药物,具有显著缩短时间和降低成本的优点。
利用知识图谱进行药物重定位为新冠肺炎治疗提供了一种有前景的策略。知识图谱描述了现实世界实体之间的已知关系,并允许发现新颖的关系。它们是药物重定位的理想工具,因为这依赖于识别生物实体(如蛋白质和化合物)之间的新颖相互作用。
链接预测是通过概率推断现有图结构中实体之间缺失链接(或边)来扩展知识图谱中存储信息的过程。它可用于推断药物与疾病之间的直接链接,或药物与疾病相关细胞产物之间的较低层次链接——例如化合物与其抑制的蛋白质之间的链接。
为加速药物重定位研究,某中心研究人员与明尼苏达大学、俄亥俄州立大学和湖南大学的合作者共同创建并开源了药物重定位知识图谱(DRKG),以及一套可用于优先排序药物重定位研究的机器学习工具。
知识图谱结构与数据源
DRKG是一个综合性生物知识图谱,关联人类基因、化合物、生物过程、药物副作用、疾病和症状。它整理并规范了来自六个公开可用数据库的数据,以及与新冠肺炎相关的最新出版物信息。
DRKG包含近10万个实体,涵盖十几种类型,以及近600万种关系,涉及100多种类型。它捕获了与新冠肺炎遗传特征或现有药物和病毒成分相关的实体之间的相互作用。
机器学习工具与技术
相关的机器学习工具采用最先进的深度图学习方法(DGL-KE),利用分布式图操作(来自PyTorch和MXNet等流行深度学习库)来预测药物治疗疾病或与疾病相关蛋白质结合的可能性。
在对与新冠肺炎相关的人类蛋白质进行测试时,这些工具为当前临床试验中的许多新冠肺炎候选药物赋予了高概率。DRKG和机器学习工具均在GitHub上公开可用,这将有助于提高针对新冠肺炎和其他疾病(如阿尔茨海默病)的计算药物重定位的效率和有效性。
实验验证
在实验中,采用机器学习方法在DRKG中搜索具有治疗新冠肺炎潜力的药物。在分析确定的41种药物中,有11种正在或曾经进行新冠肺炎临床试验。
参与开发DRKG的团队包括Vassilis Ioannidis、Xiang Song、Saurav Manchanda、Mufei Li、Xiaoqin Pan、Da Zheng和George Karypis。