基因组数据搜索技术的创新突破
计算机科学家Stefano Ceri在八年前开始涉足基因组学领域。作为米兰理工大学数据库系统教授,他在学术生涯前40年一直深耕数据管理研究。
新一代测序技术带来的基因组数据爆炸式增长,促使Ceri对计算基因组学这一新兴领域产生兴趣。他的研究目标之一是运用数据管理经验,使基因组信息搜索变得像谷歌查询一样简单。通过让科学家专注于重要的生物学问题而非计算步骤,这类数据可帮助解锁从癌症到COVID-19等疾病的解决方案。
数据整合挑战
目前存在多个公共基因组数据库,如ENCODE和TCGA。这些数据库虽然包含海量数据,但存在存储分散、格式不一、描述符各异等问题。Ceri指出:“我的工作重点是开发工具,将不同来源和格式的数据整合到统一存储库中,实现全局信息查询。”
技术实现路径
项目团队首先将多源基因组数据整合到米兰理工大学建设的统一存储库中,随后开发生物学家可直接操作的友好界面。通过"数据驱动基因组计算"项目开发的GenoSurf平台,全球研究人员可一站式访问聚合数据,实现数据筛选、可视化和下载。
团队还专门开发了GenoMetric查询语言,该语言基于Apache Spark计算引擎,能通过组合异质数据识别基因组区域。Ceri强调:“这种抽象语言能通过简单计算解析复杂现象,最佳性能需要依托某中心的云服务实现。”
疫情中的技术转型
COVID-19疫情期间,团队将技术应用于病毒基因组研究,开发出ViruSurf搜索引擎。该系统整合全球SARS-CoV-2病毒序列数据,支持突变传播轨迹等查询。目前数据库包含约65万条序列,数据导入和变异搜索等计算密集型任务均依托云服务完成。
随着疫情缓解,团队将重启因医院抗疫而暂停的前列腺癌预防、卵巢癌精准医疗等合作项目。从最初将DNA视为"四字母编码"的计算机科学家,Ceri正在基因组研究领域留下自己的印记。