英国IT基础设施处理200亿光年回溯图像
英国天文学家与软件开发人员构建了一套基础设施,用于处理和分发来自数码相机的PB级信息,该相机拍摄的图像可回溯至200亿光年以前。
全球最大数码相机与巡天项目
使用“全球最大的数码相机”,维拉·C·鲁宾天文台每几晚对南半球可用天空进行一次天文巡天,以创建宇宙的延时电影。该天文台以首次提出宇宙暗物质存在的天文学家命名,位于智利北部,但其产生的数据被发送至英国数据中心进行处理,并向科学家开放访问。
约20名研究软件工程师和计算科学家参与项目的英国部分工作,包括清理数据使其达到科研就绪状态、为天文学家提供数据访问及警报服务。
在10年巡天项目结束时,“时空遗产巡天”(LSST)项目将产生约200PB的科研就绪数据,并拥有约500PB的完整存档。
技术基础设施与数据处理
爱丁堡大学项目经理、计算科学家乔治·贝克特表示,该天文台主要由美国国家科学基金会和能源部资助。他告诉《计算机周刊》:“他们基本上建造了世界上最大的数码相机,并将其安装在望远镜的创新镜面设计上,使其能够快速捕捉天空。”
该相机仅需三到四晚即可覆盖整个南半球天空,并快速获取图像,从而实现对天空各部分的重复观测和变化识别。
项目预计在10年内对每个天空区域成像约800次,以制作“真正深度敏感的图像”。贝克特说:“通过积累大量图像及其捕获的光线,我们可以回溯约200亿光年,这比我们以往能够深入的范围更远。”
计算密集型处理
英国团队负责项目的软件和计算科学方面,包括清理来自望远镜相机的原始图像,例如去除大气失真和望远镜的系统噪声。据贝克特称,这“计算密集型,需要数百万计算小时”。
英国团队使用与大型强子对撞机相同的计算系统,美国和法国也参与这部分项目。
数据分为两类:“热数据”是天文学家需要按需访问的数据,而“较冷数据”用于更具战略性的活动型处理,科学界将大量数据移至高性能计算机系统,如英国的Archer2。
贝克特表示,团队正在构建一些“非常大的磁盘阵列”,用于存储需要按需访问的数据,而磁带将用于虽然非常重要但不每天使用或仅在特定时间使用的数据。
按需社区访问与云平台
在英国,一个面向国际社会的科学门户能够连接约1,500名天文学家与英国数字研究基础设施,以支持数据利用。贝克特说:“我们运行的是一个所谓的数据访问中心。”
在上一代计算天文学中,科学家通常会将感兴趣的数据集下载到本地计算机。但现在,通过云平台,英国的LSST项目提供数据访问,数据托管在爱丁堡和牛津郡的卢瑟福·阿普尔顿实验室。
天文学家希望能够访问所有数据以进行数据挖掘或机器学习类应用。贝克特说:“我们所做的是‘将计算机带到数据旁’,因此数据全部托管在爱丁堡或卢瑟福·阿普尔顿,我们拥有紧邻数据的云平台。天文学家可以登录,并拥有访问数据所需的所有工具和软件。”
爱丁堡数据中心称为高级计算设施,是Archer2超级计算机的所在地。有四个机房。在一号机房,英国团队正在构建一个名为Somerville的云系统,以苏格兰天文学家玛丽·萨默维尔命名。
高频率警报与AI处理
天文学家将通过英国LSST团队所谓的“社区警报代理”接收警报。天文台旨在在最近观测后一分钟内检测并报告夜空变化,这可能意味着重要的科学机会。每晚,他们预计产生约1,000万个此类警报。
贝克特说:“这里有人工智能(AI)的应用,因为处理1,000万个警报并非琐事,其中许多可能无趣或可能是误报。”像AI和机器学习这样的技术将根据给定的分类处理警报。
这些警报被发送到全球10个不同的数据中心,包括爱丁堡的数据中心。贝克特说:“我们对所谓的瞬变事件特别感兴趣,如爆炸的恒星或类星体。我们将每晚消耗这1,000万个警报,然后尽快分析和分类每一个。”
天文学家将注册特定类型的警报或特定天空区域的警报,或可能关于某些星系的警报。他解释说:“如果他们的兴趣范围内发生某事,他们将通过电子邮件、短信或某种通知收到警报。他们可能想立即去查看,这取决于他们的兴趣。分钟可能很重要。”
项目进展与未来展望
在维拉·C·鲁宾天文台LSST项目发布首批图像后,爱丁堡大学巡天天文学教授、LSST:UK项目负责人鲍勃·曼恩表示:“英国研究人员为鲁宾LSST的科学和技术准备贡献了超过10年。这些令人兴奋的首次查看图像显示一切运行良好,并确保我们未来十年将有大量精彩数据,英国天文学家将以此做出伟大的科学。”
总计2,300万英镑的资金来自科学和技术设施委员会(STFC),以支持英国在这跨国项目中的部分。英国是该项目的第二大国际贡献者。