AI预测7100万基因突变致病性突破

基于AlphaFold架构开发的AlphaMissense人工智能模型,成功对7100万种错义突变进行致病性分类,准确率达89%,为遗传疾病研究提供强大工具,相关预测数据和模型代码已开源。

AI工具分类7100万“错义”突变效应

发现疾病根本原因是人类遗传学的最大挑战之一。面对数百万种可能的突变和有限的实验数据,哪些突变可能导致疾病在很大程度上仍是个谜。这些知识对于加速诊断和开发拯救生命的治疗方法至关重要。

错义变异是什么?

错义变异是DNA中单个字母替换,导致蛋白质内氨基酸发生变化。如果将DNA视为一种语言,切换一个字母可以改变单词,并完全改变句子的含义。在这种情况下,替换改变了被翻译的氨基酸,可能影响蛋白质功能。

普通人携带超过9,000种错义变异。大多数是良性的,影响很小或没有影响,但其他是致病的,可能严重破坏蛋白质功能。

AlphaMissense的分类突破

AlphaMissense基于突破性模型AlphaFold构建,该模型从氨基酸序列预测了科学界已知的几乎所有蛋白质结构。经过调整的模型能够预测改变蛋白质单个氨基酸的错义变异的致病性。

通过使用人类和密切相关的灵长类种群频率数据库进行微调,该模型将常见变异视为良性,从未见过的变异视为致病性。AlphaMissense不预测突变后蛋白质结构的变化或其他对蛋白质稳定性的影响,而是利用相关蛋白质序列数据库和变异的结构背景,产生0到1之间的评分,近似评估变异致病的可能性。

技术实现与性能

该模型在广泛遗传和实验基准测试中实现了最先进的预测,且未明确在此类数据上训练:

  • 在ClinVar公共档案变异分类中优于其他计算方法
  • 在预测生物学实验结果方面准确率最高
  • 分类了89%的所有可能错义变异(57%可能良性,32%可能致病)

社区资源与应用

预测数据已免费提供给商业和科学界使用,并通过Ensembl变异效应预测器提供更易用的访问。除了错义突变查询表外,还分享了所有可能的2.16亿个单氨基酸序列替换的扩展预测,涵盖超过19,000种人类蛋白质。

与Genomics England的合作证实了这些预测的准确性和一致性,为研究罕见疾病遗传学提供了有力工具。

研究意义

虽然这些预测不直接用于临床,需要与其他证据源结合解释,但这项工作有望改善罕见遗传疾病的诊断,并帮助发现新的致病基因。

最终,希望AlphaMissense与其他工具一起,使研究人员能够更好地理解疾病并开发新的拯救生命的治疗方法。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计