利用人工智能扩大全球可靠洪水预测的覆盖范围
大规模全球洪水预测长期以来难以实现。在今日发表于《自然》杂志的论文中,我们展示了人工智能突破如何弥补这一差距,即使在先前缺乏数据的区域也能提供可靠的洪水预测。
洪水是最常见的自然灾害,每年在全球造成约500亿美元的经济损失。自2000年以来,洪水相关灾害的发生率因气候变化增加了一倍以上。近15亿人(占全球人口的19%)面临严重洪水事件的重大风险。升级预警系统为这些人群提供准确及时的信息,每年可挽救数千人的生命。
受可靠洪水预测对全球人民生活的潜在影响驱动,我们于2017年启动了洪水预测项目。通过多年努力,我们在构建实时业务化洪水预测系统的同时推进了研究,该系统通过谷歌搜索、地图、Android通知和洪水中心(Flood Hub)提供警报。然而,要实现全球扩展,尤其是在缺乏准确本地数据的地区,需要进一步的研究突破。
在发表于《自然》的论文《未测流域极端洪水的全球预测》中,我们证明了机器学习(ML)技术能显著改进全球尺度洪水预测,相对于当前技术水平,在洪水相关数据稀缺的国家表现尤为突出。这些基于AI的技术将当前全球即时预报的可靠性从平均零天延长至五天,并改善了非洲和亚洲地区的预测,使其达到欧洲目前的水平。模型评估与欧洲中期天气预报中心(ECMWF)合作进行。
这些技术还使洪水中心能够提供提前七天的实时河流预测,覆盖80多个国家的河流段。这些信息可供个人、社区、政府和国际组织用于采取预防行动,帮助保护脆弱人群。
洪水预测在谷歌的实现
洪水中心工具背后的ML模型是多年研究的产物,与学术界、政府、国际组织和非政府组织等多个合作伙伴共同完成。
2018年,我们在印度恒河-布拉马普特拉河流域启动了试点预警系统,假设ML可以帮助解决大规模可靠洪水预测的挑战性问题。试点通过结合淹没模型、实时水位测量、创建高程地图和水文建模在次年进一步扩展。
与学术界合作,特别是与JKU机器学习研究所,我们探索了基于ML的水文模型,显示基于LSTM的模型可以产生比传统概念和基于物理的水文模型更准确的模拟。这项研究带来了洪水预测的改进,使我们的预测覆盖范围扩展到整个印度和孟加拉国。我们还与耶鲁大学的研究人员合作测试技术干预,以增加洪水警告的覆盖范围和影响。
我们的水文模型通过处理公开可用的气象数据(如降水)和物理流域信息来预测河流洪水。此类模型必须根据来自单个河流流量测量站的长期数据记录进行校准。全球河流流域(盆地)中拥有流量计的比例较低,这些流量计昂贵但必要以提供相关数据,水文模拟和预测在缺乏这种基础设施的盆地中提供预测具有挑战性。较低的国内生产总值(GDP)与增加的洪水风险脆弱性相关,国家GDP与国内公开可用数据量之间存在反比关系。ML通过允许单个模型在所有可用河流数据上训练并应用于无数据可用的未测盆地来解决这个问题。这样,模型可以在全球范围内训练,并可以为任何河流位置做出预测。
我们的学术合作导致了ML研究,开发了估计河流预测不确定性的方法,并展示了ML河流预测模型如何综合来自多个数据源的信息。它们证明这些模型可以可靠地模拟极端事件,即使这些事件不在训练数据中。为了促进开放科学,我们在2023年在《自然科学数据》中开源了一个社区驱动的大样本水文数据集。
河流预测模型
大多数国家和国际机构用于洪水预测和河流建模的水文模型是状态空间模型,仅依赖于每日输入(如降水、温度等)和系统的当前状态(如土壤湿度、积雪等)。LSTM是状态空间模型的一种变体,通过定义代表单个时间步的神经网络工作,其中输入数据(如当前天气条件)被处理以产生该时间步的更新状态信息和输出值(流量)。LSTM按顺序应用以进行时间序列预测,在这方面,行为类似于科学家通常概念化水文系统的方式。经验上,我们发现LSTM在河流预测任务上表现良好。
我们的河流预测模型使用两个顺序应用的LSTM:(1)“后报”LSTM接收截至当前时间(或更确切地说,预测发布时)的历史天气数据(动态后报特征),和(2)“预报”LSTM接收来自后报LSTM的状态以及预测的天气数据(动态预报特征)以进行未来预测。一年的历史天气数据输入后报LSTM,七天的预测天气数据输入预报LSTM。静态特征包括流域的地理和地球物理特征,输入到后报和预报LSTM中,允许模型学习不同类型流域中的不同水文行为和响应。
预报LSTM的输出馈入“头”层,该层使用混合密度网络产生概率预测(即,流量的概率分布的预测参数)。具体来说,模型在每个预测时间步预测称为不对称拉普拉斯分布的重尾概率密度函数混合的参数。结果是称为可数不对称拉普拉斯混合(CMAL)分布的混合密度函数,代表特定时间特定河流体积流量的概率预测。
输入和训练数据
模型使用三种类型的公开可用数据输入,主要来自政府来源:
- 静态流域属性代表地理和地球物理变量:来自HydroATLAS项目,包括长期气候指数(降水、温度、雪分数)、土地覆盖和人为属性(如作为人类发展代理的夜间灯光指数)等数据。
- 历史气象时间序列数据:用于在预测发布前一年启动模型。数据来自NASA IMERG、NOAA CPC全球统一基于测量的每日降水分析和ECMWF ERA5-land再分析。变量包括每日总降水、气温、太阳和热辐射、降雪和表面压力。
- 七天预测范围内的预测气象时间序列:用作预报LSTM的输入。这些数据是上述相同的气象变量,来自ECMWF HRES大气模型。
训练数据是1980-2023年期间的每日流量值,来自全球径流数据中心。使用来自5,680个多样化流域流量计(如下所示)的数据训练单个流量预测模型以提高准确性。
改进当前技术水平
我们将河流预测模型与当前最先进的全球洪水预测系统GloFAS版本4进行了比较。这些实验表明,ML可以提供更早的准确警告,并覆盖更大和更有影响的事件。
下图显示了预测全球河流位置不同严重性事件时的F1分数分布,准确度为正负1天。F1分数是精确率和召回率的平均值,事件严重性通过回归期衡量。例如,2年回归期事件是预计平均每两年超过一次的流量体积。我们的模型在长达4天或5天的提前期达到的可靠性分数平均与GloFAS即时预报(0天提前期)的可靠性相似或更好。
此外(未显示),我们的模型在更大和更罕见的极端事件上达到准确性,对5年回归期事件的精确率和召回率分数与GloFAS对1年回归期事件的准确性相似或更好。详见论文。
展望未来
洪水预测倡议是我们适应和韧性努力的一部分,反映了谷歌在帮助全球社区变得更具韧性的同时应对气候变化的承诺。我们相信AI和ML将继续在帮助推进科学和研究以实现气候行动方面发挥关键作用。
我们积极与几个人道主义数据中心和红十字会等国际援助组织合作,提供可操作的洪水预测。此外,在与世界气象组织(WMO)支持气候危害预警系统的持续合作中,我们正在进行一项研究,以帮助理解AI如何帮助解决国家洪水预测机构面临的实际挑战。
尽管这里展示的工作证明了洪水预测的重大进步,但未来需要进一步将洪水预测覆盖扩展到全球更多地点和其他类型的洪水相关事件和灾害,包括山洪暴发和城市洪水。我们期待继续与学术和专家社区、地方政府和行业的合作伙伴合作以实现这些目标。