AI革新洪水预警:深度学习模型实现全球洪水预测新突破

本文深入介绍了谷歌研究团队如何利用长短期记忆网络等机器学习技术构建全球洪水预测系统,显著提升了无数据地区的预测能力,实现了提前7天发布可靠预警的目标。

利用AI扩展全球可靠洪水预测的可及性

洪水是最常见的自然灾害,每年在全球造成约500亿美元的经济损失。自2000年以来,与洪水相关的灾害发生率增加了一倍以上,部分原因是气候变化。近15亿人(占世界人口的19%)面临严重洪水事件的巨大风险。升级预警系统,为这些人群提供准确及时的信息,每年可拯救数千人的生命。

受可靠的洪水预测对全球人民生活的潜在影响所驱动,我们于2017年启动了洪水预测项目。通过多年的努力,我们在推进研究的同时,建立了一个实时业务洪水预测系统,通过谷歌搜索、谷歌地图、Android通知和洪水中心提供警报。然而,为了在全球范围内推广,特别是在缺乏准确本地数据的地区,还需要更多的研究进展。

在发表于《自然》杂志的论文《全球无测站流域极端洪水预测》中,我们证明了机器学习技术如何能显著改进全球范围的洪水预测,尤其是在洪水相关数据稀缺的国家。通过这些基于AI的技术,我们将现有全球短期预报的平均可靠性从零天提高到五天,并将非洲和亚洲地区的预测能力提高到与欧洲现有水平相当。模型的评估是与欧洲中期天气预报中心合作进行的。

这些技术还使洪水中心能够提供长达7天的实时河流流量预报,覆盖超过80个国家的河流流域。这些信息可被个人、社区、政府和国际组织用于采取预防措施,帮助保护弱势群体。

谷歌的洪水预测

为洪水中心提供动力的机器学习模型是多年研究的成果,是与包括学术界、政府、国际组织和非政府组织在内的多个合作伙伴共同进行的。

2018年,我们在印度恒河-布拉马普特拉河流域启动了一个预警系统试点项目,其假设是机器学习可以帮助解决大规模可靠洪水预测的难题。次年,通过结合淹没模型、实时水位测量、创建高程图和水文模型,进一步扩展了试点项目。

在与学术界(特别是JKU机器学习研究所)的合作中,我们探索了基于机器学习的水文模型,研究表明基于LSTM的模型可以比传统的概念和基于物理的水文模型产生更准确的模拟。这项研究带来的洪水预测改进,使得我们的预报覆盖范围得以扩展到整个印度和孟加拉国。我们还与耶鲁大学的研究人员合作,测试了增加洪水预警覆盖面和影响力的技术干预措施。

我们的水文模型通过处理降水等公开天气数据和水文流域物理信息来预测河流洪水。此类模型必须根据各个河流中水文站点的长期数据记录进行校准。全球只有很小比例的河流流域设有水文站点,这些站点成本高昂,但却是提供相关数据所必需的,在水文模拟和预报方面,为缺乏这种基础设施的流域提供预测是一项挑战。国内生产总值较低与洪水风险脆弱性增加相关,并且国家GDP与一个国家公开可用数据量之间存在反比关系。机器学习通过允许一个模型在所有可用河流数据上进行训练,并应用于没有数据可用的未测量流域,从而帮助解决这个问题。通过这种方式,模型可以进行全球训练,并为任何河流位置提供预测。

我们的学术合作推动了机器学习研究,开发了估计河流预报不确定性的方法,并展示了机器学习河流预报模型如何综合来自多个数据源的信息。他们证明,即使训练数据中不包含极端事件,这些模型也能可靠地模拟极端事件。为了促进开放科学,我们于2023年在《自然·科学数据》上开源了一个社区驱动的大型水文样本数据集。

河流预报模型

大多数用于洪水预报和河流建模的国家和国际机构使用的水文模型是状态空间模型,仅依赖于日常输入(例如降水、温度等)和系统的当前状态(例如土壤湿度、积雪等)。LSTM是状态空间模型的一种变体,通过定义一个代表单个时间步长的神经网络来工作,其中输入数据(例如当前天气状况)被处理以生成该时间步长的更新状态信息和输出值(流量)。LSTM被顺序应用以进行时间序列预测,从这个意义上讲,其行为方式类似于科学家通常概念化的水文系统。根据经验,我们发现LSTM在河流预报任务上表现良好。

我们的河流预报模型使用两个顺序应用的LSTM:

  1. “后报"LSTM:接收截至当前时间(或预报发布时间)的历史气象数据(动态后报特征)。
  2. “预报"LSTM:接收来自后报LSTM的状态以及预报的气象数据(动态预报特征),以进行未来预测。

一年的历史气象数据输入后报LSTM,七天的预报气象数据输入预报LSTM。静态特征包括流域的地理和地球物理特性,它们被输入到后报和预报LSTM中,使模型能够学习不同类型流域中不同的水文行为和对气象的响应。

来自预报LSTM的输出被馈送到一个"头部"层,该层使用混合密度网络来产生概率预报(即流量概率分布的预测参数)。具体来说,模型在每个预报时间步预测一个称为非对称拉普拉斯分布的"重尾"概率密度函数混合体的参数。其结果是一个称为可数非对称拉普拉斯混合的概率密度函数,它代表了特定时间、特定河流中体积流量的概率预测。

输入与训练数据

模型使用三种类型的公开可用数据输入(主要来自政府来源):

  • 静态流域属性:代表地理和地球物理变量,来自HydroATLAS项目,包括长期气候指数(降水、温度、雪比例)、土地覆盖和人为属性(例如,作为人类发展代理的夜间灯光指数)。
  • 历史气象时间序列数据:用于在预报发布时间之前启动模型一年。数据来自NASA IMERG、NOAA CPC全球统一基于日降水观测的分析以及ECMWF ERA5-land再分析。变量包括日总降水量、气温、太阳和热辐射、降雪量和地表气压。
  • 七天预报时效内的预报气象时间序列:用作预报LSTM的输入。这些数据是上面列出的相同气象变量,来自ECMWF HRES大气模型。

训练数据是1980年至2023年期间的日流量值,来自全球径流数据中心。使用来自5,680个多样化流域水文站点的数据训练一个单一的流量预报模型,以提高准确性。

改进当前技术水平

我们将我们的河流预报模型与当前最先进的全球洪水预报系统GloFAS第4版进行了比较。这些实验表明,机器学习可以提供更早的准确预警,并能覆盖更大、影响更严重的事件。

下图显示了在全球河流位置预测不同严重程度事件时(正负一天精度内)的F1分数分布。F1分数是精确率和召回率的平均值,事件严重程度通过重现期衡量。例如,一个2年重现期的事件是指预计平均每两年被超过一次的流量值。我们的模型在长达4天或5天的预见期所达到的可靠性得分,平均而言,与GloFAS短期预报(0天预见期)的可靠性相似或更好。

此外,我们的模型在更大、更罕见的极端事件上也达到了更高的准确性,对5年重现期事件的精确率和召回率得分与GloFAS对1年重现期事件的准确性相当甚至更好。更多信息请参阅论文。

展望未来

洪水预测倡议是我们"适应与恢复力"努力的一部分,反映了谷歌在应对气候变化的同时帮助全球社区增强韧性的承诺。我们相信AI和机器学习将继续在帮助推进科学和气候行动研究方面发挥关键作用。

我们积极与多个国际援助组织(例如人道主义数据中心和红十字会)合作,提供可操作的洪水预报。此外,在与世界气象组织支持气候灾害预警系统的持续合作中,我们正在进行一项研究,以帮助理解AI如何帮助解决国家洪水预报机构面临的实际挑战。

虽然此处展示的工作标志着洪水预测向前迈出了重要一步,但未来还需要进一步努力,将洪水预报覆盖范围扩展到全球更多地点以及其他类型的洪水相关事件和灾害,包括山洪和城市内涝。我们期待着继续与学术界和专家社区、地方政府及业界的合作伙伴合作,以实现这些目标。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计