生成式AI量化天气预报不确定性:SEEDS技术详解

本文介绍了Google Research最新发布的SEEDS技术,这是一种基于去噪扩散概率模型的生成式AI,能够以极低的计算成本大规模生成天气预报集合,更准确地捕捉极端天气事件的概率分布,为传统物理预报模型提供了高效的补充方案。

生成式AI量化天气预报不确定性

2024年3月29日 - Lizao (Larry) Li, 软件工程师, 与 Rob Carver, 研究科学家, Google Research

我们提出了SEEDS,这是一种利用扩散模型加速和改进天气预报的新AI技术。SEEDS能够显著降低生成集合预报的计算成本,并更好地描述罕见或极端天气事件。

快速链接


准确的天气预报直接影响人们的生活,从帮助做出日常决定(如一天的行李打包)到指导紧急行动(例如在危险天气条件下保护人民)。随着气候变化,准确及时的天气预报的重要性只会增加。认识到这一点,我们在Google一直投资于天气和气候研究,以确保未来的预报技术能够满足对可靠天气信息的需求。我们近期的一些创新包括MetNet-3(Google未来24小时的高分辨率预报)和GraphCast(可以预测未来10天天气的模型)。

天气本质上是随机的。为了量化不确定性,传统方法依赖于基于物理的模拟来生成预报集合。然而,生成一个大型集合以准确识别和描述罕见和极端天气事件的成本计算高昂。

鉴于此,我们兴奋地宣布我们旨在加速天气预报进展的最新创新——可扩展集合包络扩散采样器(SEEDS),该成果近期发表在《科学进展》上。SEEDS是一种生成式AI模型,能够以传统基于物理的预报模型一小部分的成本,高效地大规模生成天气预报集合。这项技术为天气和气候科学开辟了新的机遇,并且它代表了概率扩散模型(一种推动近期媒体生成进步的生成式AI技术)在天气和气候预报领域的首批应用之一。

概率预报的需求:蝴蝶效应

1972年12月,在华盛顿特区举行的美国科学促进会会议上,麻省理工学院气象学教授爱德华·洛伦茨发表了题为“巴西蝴蝶扇动翅膀是否会在德克萨斯州引发龙卷风?”的演讲,这促成了“蝴蝶效应”一词。他基于其1963年的里程碑论文,在该文中他研究了“超长期天气预报”的可行性,并描述了初始条件的误差如何在使用数值天气预报模型随时间积分时呈指数增长。这种指数级的误差增长,被称为混沌,导致了一个确定性可预测性极限,限制了个别预报在决策中的使用,因为它们无法量化天气条件的固有不确定性。这在预报极端天气事件(如飓风、热浪或洪水)时尤其成问题。

认识到确定性预报的局限性,世界各地的气象机构发布概率预报。这种预报基于确定性预报的集合,每个集合成员通过在初始条件中加入合成噪声和在物理过程中加入随机性来生成。利用天气模型中快速的误差增长率,集合中的预报被有意地设计得不同:初始不确定性被调整以生成尽可能不同的运行,而天气模型中的随机过程则在模型运行期间引入额外的差异。通过平均集合中的所有预报可以减轻误差增长,并且预报集合中的变异性量化了天气条件的不确定性。

虽然有效,但生成这些概率预报的计算成本很高。它们需要在大型超级计算机上多次运行高度复杂的数值天气模型。因此,许多业务天气预报每个预报周期只能负担生成大约10到50个集合成员。这对于关注罕见但高影响天气事件可能性的用户来说是个问题,因为通常需要大得多的集合来评估几天后的情况。例如,需要10000个成员的集合来预测发生概率为1%的事件,其相对误差小于10%。量化此类极端事件的概率可能很有用,例如,用于应急管理准备或能源交易。

SEEDS:AI赋能的进步

在上述论文中,我们介绍了可扩展集合包络扩散采样器(SEEDS),一种用于天气预报集合生成的生成式AI技术。SEEDS基于去噪扩散概率模型,这是一种部分由Google Research开创的最先进的生成式AI方法。

SEEDS可以根据来自业务数值天气预报系统的一两个预报作为条件,生成一个大型集合。生成的集合不仅产生看似真实天气的合理预报,而且在诸如秩直方图、均方根误差(RMSE)和连续分级概率评分(CRPS)等技能指标上,匹配或超过了基于物理的集合。特别是,生成的集合为预报分布的尾部(如±2σ和±3σ天气事件)分配了更准确的可能性。最重要的是,与超级计算机进行预报所需数小时的计算时间相比,该模型的计算成本可以忽略不计。它在Google Cloud TPUv3-32实例上具有每3分钟256个集合成员(分辨率为2°)的吞吐量,并且可以通过部署更多加速器轻松扩展到更高的吞吐量。

SEEDS生成数量级更多的样本来填充天气模式的分布。

生成合理的天气预报

生成式AI以生成非常详细的图像和视频而闻名。这一特性对于生成与合理天气模式一致的集合预报特别有用,最终为下游应用带来最大的附加价值。正如洛伦茨指出的,“它们产生的[天气预报]图应该看起来像真实的天气图。”下图将SEEDS的预报与美国业务天气预报系统(全球集合预报系统,GEFS)在2022年欧洲热浪期间某个特定日期的预报进行了对比。我们还将结果与高斯模型的预报进行了比较,该模型预测每个位置每个大气场的单变量均值和标准差,这是一种常见且计算高效但不够复杂的数据驱动方法。这个高斯模型旨在表征逐点后处理的输出,它忽略了相关性并将每个网格点视为独立的随机变量。相比之下,真实的天气图具有详细的相关结构。

因为SEEDS直接对大气状态的联合分布进行建模,所以它逼真地捕捉了空间协方差以及中层位势高度与平均海平面气压之间的相关性,这两者密切相关,并且通常被天气预报员用于评估和验证预报。平均海平面气压的梯度驱动着地表风,而中层位势高度的梯度则产生推动大规模天气模式的高层风。

下图中显示的SEEDS生成样本(图Ca–Ch)展示了葡萄牙西侧的一个位势槽,其空间结构与在美国业务预报或基于观测的再分析中发现的结构相似。虽然高斯模型充分预测了边缘单变量分布,但它未能捕捉跨场或空间相关性。这阻碍了评估这些异常对来自北非的热空气入侵可能产生的影响,而热空气入侵可能加剧欧洲的热浪。

欧洲上空的地图戳记,时间为2022年7月14日UTC 0:00。轮廓线表示平均海平面气压(虚线表示低于1010 hPa的等压线),而热图描绘了500 hPa气压层的位势高度。(A) ERA5再分析,是真实观测的代理。(Ba-Bb) 来自7天美国业务预报的2个成员,用作我们模型的种子。(Ca-Ch) 从SEEDS中抽取的8个样本。(Da-Dh) 来自7天美国业务集合预报的8个非种子成员。(Ea-Ed) 来自逐点高斯模型的4个样本,该模型由整个美国业务集合的均值和方差参数化。

更准确地覆盖极端事件

下面我们展示了在2022年7月14日当地时间1:00的极端高温事件期间,里斯本附近2米温度和总柱水汽的联合分布。我们使用了2022年7月7日发布的7天预报。对于每个图,我们使用SEEDS生成了16384个成员的集合。来自ERA5的观测天气事件用星号表示。业务集合也显示出来,方块表示用于种子生成集合的预报,三角形表示其余的集合成员。

下面我们展示了在2022年7月14日当地时间1:00的极端高温事件期间,里斯本附近2米温度和总柱水汽的联合分布。我们使用了2022年7月7日发布的7天预报。对于每个图,我们使用SEEDS生成了16384个成员的集合。来自ERA5的观测天气事件用星号表示。业务集合也显示出来,方块表示用于种子生成集合的预报,三角形表示其余的集合成员。

根据美国业务集合,观测到的事件在七天前非常不可能发生,以至于其31个成员中没有一个是预测到与观测到的温度相近的近地表温度。事实上,根据高斯核密度估计计算的事件概率低于1%,这意味着成员数少于100的集合不太可能包含如此极端的事件。相比之下,SEEDS集合能够从两个种子预报进行外推,提供可能天气状态的包络,对事件具有更好的统计覆盖。这使得既能量化事件发生的概率,又能对事件发生时的天气状况进行采样。具体来说,我们高度可扩展的生成方法能够创建非常大的集合,通过为任何用户定义的诊断提供超过给定阈值的天气状态样本,来描述非常罕见的事件。

结论与未来展望

SEEDS利用生成式AI的力量,以更快的速度生成可与美国业务预报系统相媲美的集合预报。本文报告的结果仅需要来自业务系统的2个种子预报,而当前版本的业务系统生成31个预报。这导致了一个混合预报系统,其中少数使用基于物理的模型计算出的天气轨迹被用作扩散模型的种子,该模型可以更有效地生成额外的预报。这种方法为当前业务天气预报范式提供了一种替代方案,统计模拟器节省的计算资源可以用于提高基于物理模型的分辨率或更频繁地发布预报。

我们相信SEEDS只是未来几年AI将加速业务数值天气预报进步的众多方式之一。我们希望这次生成式AI在天气预报模拟和后处理中效用的展示,能够促进其在诸如气候风险评估等研究领域的应用,在这些领域中生成大量气候预测集合对于准确量化未来气候的不确定性至关重要。

致谢

所有SEEDS作者——Lizao Li、Rob Carver、Ignacio Lopez-Gomez、Fei Sha和John Anderson——共同撰写了这篇博文,Carla Bromberg担任项目负责人。我们也感谢Tom Small设计了动画。我们在Google Research的同事为SEEDS工作提供了宝贵的建议。我们感谢Leonardo Zepeda-Núñez、Zhong Yi Wan、Stephan Rasp、Stephan Hoyer和Tapio Schneider的投入和有益的讨论。我们感谢Tyler Russell提供的额外技术项目管理,以及Alex Merose的数据协调和支持。我们也感谢Cenk Gazen、Shreya Agrawal和Jason Hickey在SEEDS工作早期阶段的讨论。


标签: 气候与可持续性, 生成式AI

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计