某中心开放全球最大基因组序列数据库访问
通过开放数据赞助计划,美洲最大的基因组测序存储库首次实现云平台原生访问。
某中心今日宣布,由国家生物技术信息中心管理的美国国立卫生研究院序列读取档案数据,现可通过其云平台开放数据赞助计划免费访问。2018年,该中心开始通过相关倡议将数据迁移至云平台。
随着数据在对象存储服务上公开可用,科学家现在可以将数据无缝集成到基于云的基因组工作流中。研究人员可选择通过云管理控制台或命令行界面访问数据,也可使用开源工具进行数据分析。
“将数据开放至云平台,使得生命科学和基因组学领域的研究人员能够在开放数据的基础上进行建设,并通过工具、解决方案和产品丰富科学生态系统,“某中心政府及医疗业务副总裁表示。
数据科学价值与规模
序列读取档案是目前最古老的新一代生物医学测序数据存储库之一,包含超过44petabases的基因组序列,数据量相当于60亿个人类基因组。当前数据体积已超过40PB,且预计每12-18个月将翻倍增长。
“对象存储服务能够匹配这种增长速率,“相关负责人表示,“云的计算能力也能同步扩展。”
疫情研究中的关键作用
该数据库包含生命树所有分支的基因组序列,在COVID-19疫情防控中发挥重要作用。例如,某大学云创新中心开发的开放科学病毒发现平台,曾使用云服务对齐380万份数据提交中的冠状病毒泛基因组,以识别新的冠状病毒序列。
要了解序列读取档案的最新信息,可访问官方数据库网站。云平台开放数据详情可通过开放数据门户查询。