访谈:欧洲核子研究中心粒子物理数据处理
距离欧洲核子研究中心(CERN)——大型强子对撞机(LHC)的所在地——成为开放量子研究所(OQI)三年试点阶段基地已过去一年有余。OQI是一个多方参与的全球性科学外交倡议,主要目标包括为所有人提供量子计算访问权限并加速人类应用发展。
在伦敦巴特西发电站举行的首届量子数据中心联盟论坛上,CERN与国际组织关系高级顾问兼首席科学家Archana Sharma向《计算机周刊》表示,OQI是"对我们在量子计算、量子网络、量子计算机领域现状的评估",使CERN能够"全面审视当前发展态势"。
“CERN的使命是粒子物理研究,“她强调,“我们不能放弃粒子物理直接转向量子计算机。“但Sharma认为量子技术发展与CERN研究可能存在协同效应。粒子加速器的加速过程源于多种作用力,“加速过程中发生的所有现象都严格遵循量子力学原理。”
更重要的是,量子力学使得粒子加速器的各种探测器能够收集CERN科学家实验产生的结果。这些实验产生海量数据——事实上,CERN为支持粒子物理实验开发的White Rabbit技术即将应用于量子计算纠错领域。这项开源精密定时系统通过以太网分发,可实现亚纳秒级精度。
英国量子网络技术公司Nu Quantum近期加入了CERN的White Rabbit合作项目。该技术为Nu Quantum提供了实现量子计算网络扩展所需的高精度同步方案。
支撑粒子物理研究的计算技术
万维网源自Tim Berners-Lee在CERN时的构想,如今LHC的基地维护着多个GitHub代码库,并开发了众多开源平台以推动粒子物理研究进展。
“计算是CERN的三大支柱之一,“Sharma阐述,“第一支柱是科学研究,第二是基础设施(包括加速器、实验设备和探测器),第三就是计算。”
Sharma表示CERN持续升级计算中心能力以满足实验基础设施需求。“我们必须确保采集和记录有效数据”,这意味着需要将每秒4000万次对撞数据初步筛选至约1000次,最终精简到100次。该处理过程必须在粒子加速器检测到下一次对撞前的2.5毫秒内完成。
机器学习与模式识别的关键作用
按CERN术语,传感器被称为"通道”,每个实验需处理10万个通道。CERN依赖模式识别和机器学习处理实验产生的庞大数据集并创建仿真模型。“这是我们最重要的工具。通过大量仿真运行生成模型,预测每次对撞的读数结果。”
这些模型和仿真使CERN能够优化触发数据采集——即从10万个通道传感器识别出的微小电信号。触发数据用于重建过程,通过汇总传感器能量测量值,利用观测数据对实验进行精确模拟。在企业IT领域,这种配置可视为数字孪生实例,但Sharma指出CERN的仿真接近但尚未完全达到数字孪生标准。
数据验证与基础设施升级
数据处理本质上是预测分析任务,建立在预测理论科学基础上。“我们站在预测的肩膀上——通过测量验证理论预测与实际观测的一致性,“Sharma解释道。观测结果要么支持理论,要么表明存在错误,可能是理论需要调整,也可能是LHC校准误差。
LHC即将进入为期三年的"技术停运"升级阶段。Sharma透露亮度将提升10倍,使数据采集量增长10倍。随着基础设施和探测器升级,CERN计算中心也在为即将激增的数据处理需求做准备。