简单AI模型不输复杂模型?基因扰动预测新发现

某机构研究发现,在预测基因扰动效应时,简单统计方法与复杂AI模型表现相当。团队开发出Systema工具消除系统偏差,揭示模型评估存在缺陷,强调需要基于生物学价值评估预测效果。

高级AI模型未必优于简单模型

理解基因扰动(科学家通过故意改变基因来观察对细胞的影响)是理解基因功能及其调控机制的关键。这一知识在细胞工程和新疗法开发中具有重要应用价值。

目前,科学家可以在实验室测试多种基因扰动,但可能的组合数量庞大,无法全部进行实验验证。

人工智能和机器学习为利用大型生物数据集信息预测基因改变后果提供了可能——即使该改变从未在实验室测试过。但这些模型的实际效果如何?

评估不同预测模型

为验证这一点,某机构机器学习与生物医学实验室的研究人员与国际同事合作,测试了最佳AI模型。他们使用十组不同实验数据,并将其与简单统计方法进行比较。

近期发表于《自然生物技术》的研究得出了令人惊讶的结论:在许多数据集上,简单方法的表现与高级AI模型相当甚至更优。

该实验室负责人表示:“简单方法表现不输高级AI模型的现象让我们思考:高级模型是否真正理解了基因改变的作用?现有评估指标是否适合这些模型?”

简单方法表现出色的原因

高级模型可能存在表现虚高的问题,这源于处理与未处理细胞间的系统性差异。在这种情况下,模型可能没有学到基因改变的真实效应,而只是识别出实验设计导致的模式或几乎所有基因改变都会产生的效应。

研究人员还发现,常用的模型性能检查方法可能产生误导,往往未能考虑这些系统性差异。

论文第一作者解释说:“为解决这个问题,我们开发了名为Systema的工具。它能减少系统偏差的影响,聚焦每个基因扰动的独特效应,同时使理解基因扰动的实际作用变得更加容易。”

预测难度超出现有指标认知

通过Systema,研究人员发现AI模型预测新基因改变效应仍然非常困难。虽然某些模型在基因属于同一生物过程时能做出正确猜测,但整体挑战依然存在。

Systema有助于区分仅捕捉偏差的模型与真正理解基因修饰如何影响细胞的模型。

研究人员建议应基于生物学价值评估AI模型,即关注预测解释细胞特征的能力。

研究负责人总结道:“展望未来,更大规模、更多样化的实验将有助于改进预测。同时,能更详细观察细胞形态或位置的新技术,将帮助我们更好地理解基因改变如何影响细胞和组织。”

参考文献

  • 详细了解Systema工具
  • 《Systema:超越系统变异的基因扰动响应预测评估框架》
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计