AI技术实现全球洪水预报新突破

谷歌研究团队利用机器学习技术开发出全球洪水预测系统,将可靠预报时间从零延长至五天,覆盖80多个国家河流流域,为缺乏数据的地区提供准确洪水预警。

利用AI扩大全球可靠洪水预报的覆盖范围

大规模全球洪水预报长期以来一直难以实现。在我们今天发表于《自然》杂志的论文中,我们展示了AI技术的突破如何弥补这一差距,为先前缺乏数据的地区提供可靠的洪水预测。

洪水是最常见的自然灾害,每年在全球造成约500亿美元的经济损失。自2000年以来,与洪水相关的灾害发生率增加了一倍以上,部分原因是气候变化。近15亿人(占世界人口的19%)面临严重洪水事件的重大风险。升级预警系统,为这些人群提供准确及时的信息,每年可挽救数千人的生命。

受可靠洪水预报对全球人民生活的潜在影响驱动,我们于2017年启动了洪水预报工作。通过这一多年历程,我们逐年推进研究,同时建立了实时业务洪水预报系统,通过谷歌搜索、地图、Android通知和Flood Hub提供警报。然而,为了实现全球扩展,特别是在缺乏准确本地数据的地方,需要更多的研究进展。

在发表于《自然》杂志的《未测量流域极端洪水的全球预测》中,我们展示了机器学习技术如何显著改进全球尺度洪水预报,相对于当前最先进技术,在洪水相关数据稀缺的国家尤其如此。通过这些基于AI的技术,我们将当前可用的全球即时预报的可靠性从平均零天延长至五天,并改善了非洲和亚洲地区的预报,使其与欧洲目前可用的预报水平相当。模型的评估是与欧洲中期天气预报中心合作进行的。

这些技术还使Flood Hub能够提供提前七天的实时河流预报,覆盖80多个国家的河流段。这些信息可被个人、社区、政府和国际组织用于采取预防行动,帮助保护脆弱人群。

Flood Hub工具背后的机器学习模型

Flood Hub工具背后的机器学习模型是多年研究的产物,与包括学术界、政府、国际组织和非政府组织在内的多个合作伙伴合作进行。

2018年,我们在印度恒河-布拉马普特拉河流域启动了一个试点预警系统,假设机器学习可以帮助解决可靠洪水预报规模化这一具有挑战性的问题。次年,通过结合淹没模型、实时水位测量、创建高程地图和水文建模,进一步扩展了该试点项目。

与学术界,特别是与JKU机器学习研究所合作,我们探索了基于机器学习的水文模型,表明基于LSTM的模型可以比传统的概念和基于物理的水文模型产生更准确的模拟。这项研究带来了洪水预报的改进,使我们的预报覆盖范围扩展到包括整个印度和孟加拉国。我们还与耶鲁大学的研究人员合作,测试增加洪水预警覆盖范围和影响的技术干预措施。

我们的水文模型通过处理公开可用的天气数据(如降水)和物理流域信息来预测河流洪水。此类模型必须根据来自单个河流流量测量站的长期数据记录进行校准。全球河流流域中拥有流量测量站的比例较低,这些测量站昂贵但必要以提供相关数据,而在缺乏这种基础设施的流域,水文模拟和预报提供预测具有挑战性。较低的国内生产总值与较高的洪水风险脆弱性相关,并且国家GDP与一国公开可用数据量之间存在负相关。机器学习通过允许单个模型在所有可用河流数据上训练,并应用于无可用数据的未测量流域,从而帮助解决这个问题。通过这种方式,模型可以在全球范围内训练,并可以为任何河流位置做出预测。

我们的学术合作推动了机器学习研究,开发了估计河流预报不确定性的方法,并展示了机器学习河流预报模型如何综合来自多个数据源的信息。他们证明,即使这些事件不属于训练数据,这些模型也能可靠地模拟极端事件。为了促进开放科学,我们在2023年于《自然·科学数据》上开源了一个社区驱动的大样本水文学数据集。

河流预报模型

国家和国际机构用于洪水预报和河流建模的大多数水文学模型是状态空间模型,仅依赖于每日输入(例如降水、温度等)和系统的当前状态(例如土壤湿度、积雪等)。LSTM是状态空间模型的一种变体,通过定义一个表示单个时间步的神经网络来工作,其中输入数据(如当前天气条件)被处理以产生该时间步的更新状态信息和输出值(流量)。LSTM被顺序应用以进行时间序列预测,在这个意义上,其行为类似于科学家通常概念化水文系统的方式。经验上,我们发现LSTM在河流预报任务上表现良好。

我们的河流预报模型使用两个顺序应用的LSTM:

  1. “后报"LSTM接收截至当前时间(或更确切地说,预报发布时)的历史天气数据(动态后报特征)
  2. “预报"LSTM接收来自后报LSTM的状态以及预报的天气数据(动态预报特征)以进行未来预测

一年的历史天气数据输入到后报LSTM中,七天的预报天气数据输入到预报LSTM中。静态特征包括流域的地理和地球物理特征,输入到后报和预报LSTM中,允许模型学习不同类型流域中的不同水文行为和响应。

来自预报LSTM的输出被馈送到一个"头部"层,该层使用混合密度网络产生概率预报(即,流量的概率分布的预测参数)。具体来说,模型在每个预报时间步预测一组重尾概率密度函数(称为非对称拉普拉斯分布)的参数。结果是一个混合密度函数,称为可数非对称拉普拉斯混合分布,它表示在特定时间特定河流中体积流量的概率预测。

输入和训练数据

模型使用三种类型的公开可用数据输入,主要来自政府来源:

  • 静态流域属性:代表地理和地球物理变量,来自HydroATLAS项目,包括长期气候指数(降水、温度、雪比例)、土地覆盖和人为属性(例如,作为人类发展代理的夜间灯光指数)等数据。
  • 历史气象时间序列数据:用于在预报发布前一年启动模型。数据来自NASA IMERG、NOAA CPC全球统一基于测量的日降水分析和ECMWF ERA5-land再分析。变量包括日总降水、气温、太阳和热辐射、降雪和地表压力。
  • 预报气象时间序列:在七天预报范围内,用作预报LSTM的输入。这些数据是上面列出的相同气象变量,来自ECMWF HRES大气模型。

训练数据是1980-2023年期间来自全球径流数据中心的日流量值。使用来自5,680个多样化流域流量测量站的数据训练单个流量预报模型以提高准确性。

改进当前最先进技术

我们将我们的河流预报模型与当前最先进的全球洪水预报系统GloFAS版本4进行了比较。这些实验表明,机器学习可以提供更早的准确预警,并覆盖更大和更具影响力的事件。

下图显示了在全球河流位置预测不同严重程度事件时,F1分数的分布,精度为正负1天。F1分数是精确度和召回率的平均值,事件严重程度通过重现期衡量。例如,2年重现期事件是预计平均每两年超过一次的流量体积。我们的模型在长达4天或5天的提前期达到的可靠性分数,平均而言,与GloFAS即时预报的可靠性相似或更好。

此外,我们的模型在更大和更罕见的极端事件上达到了准确性,对5年重现期事件的精确度和召回率分数与GloFAS对1年重现期事件的准确性相似或更好。更多信息请参见论文。

展望未来

洪水预报计划是我们适应和韧性努力的一部分,反映了谷歌在帮助全球社区增强韧性的同时应对气候变化的承诺。我们相信AI和机器学习将继续在帮助推进科学和研究以促进气候行动方面发挥关键作用。

我们积极与几个人道主义援助组织合作,提供可操作的洪水预报。此外,在与世界气象组织支持气候危害早期预警系统的持续合作中,我们正在进行一项研究,以帮助理解AI如何帮助解决国家洪水预报机构面临的实际挑战。

虽然这里展示的工作证明了洪水预报的重大进步,但未来的工作需要进一步将洪水预报覆盖范围扩展到全球更多地点以及其他类型的洪水相关事件和灾害,包括山洪暴发和城市洪水。我们期待继续与学术和专家界、地方政府和行业的合作伙伴合作以实现这些目标。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计