某中心开放基因组序列数据库云端访问
通过某中心开放数据赞助计划,美洲最大的基因组测序存储库首次实现云端原生访问。美国国立卫生研究院(NIH)序列读取档案(SRA)数据现可免费通过该计划获取。
云端数据集成与访问方式
自2018年起,国家生物技术信息中心(NCBI)开始通过NIH STRIDES计划将SRA数据迁移至某中心云平台。如今SRA数据可在某简单存储服务(S3)上公开访问,科学家可无缝将SRA数据集成到基于云的基因组工作流中。
研究人员可通过以下方式访问数据:
- 原生某中心客户端(管理控制台或命令行界面)
- 开源工具如SRA Explorer
数据规模与科学价值
SRA目前存储超过44 petabases的基因组序列,相当于超过60亿个人类基因组数据量(超过美国现有人口的18倍)。数据库容量已超过40 PB,且预计每12-18个月将翻倍增长。
该数据库包含生命树所有分支的基因组序列,在COVID-19抗疫中发挥关键作用。例如,不列颠哥伦比亚大学云创新中心开发的开放科学病毒发现平台Serratus,使用某中心服务将冠状病毒泛基因组与380万份SRA提交数据进行比对,识别新的冠状病毒序列。
专家观点
某中心美国政府、非营利组织和医疗保健业务副总裁表示:“通过云端提供SRA数据,生命科学和基因组学界的研究人员可以在开放数据的坚实基础上进行建设,用工具、解决方案和产品丰富和扩展科学生态系统。”
NIH数据科学副总监强调:“云端访问SRA数据实现了NIH长期坚持的广泛、快速、公平获取生物医学研究数据的原则。这种开放数据计划提供的计算访问新机遇将加速研究进程,使我们能够提出大胆问题并实现科学发现。”
技术优势
对象存储服务(如某S3)可匹配该增长速度,云计算能力也能相应扩展。这种架构支持科学家直接在数据存储位置进行分析,减少数据传输需求,提高研究效率。