Google Cloud与Cloudflare因API更新故障引发全球大规模服务中断
2025年6月12日,Google Cloud将周四的全球大规模服务中断归咎于一次有问题的API更新。此次中断影响了Google自身数十项产品及其他提供商(包括Cloudflare和Spotify)的服务。
在一份初步事件报告中,Google表示罪魁祸首是其API管理系统的无效自动化配额更新,导致外部API请求失败。Google Cloud在其状态页面上声明:“本次事件本不应发生,我们将采取以下措施防止未来再次发生:防止API管理平台因无效或损坏数据而故障;防止元数据在没有适当保护、测试和监控的情况下全球传播;改进系统错误处理及对无效数据的全面测试。”Google承诺提供完整的事件报告及补救步骤。
Google Cloud首席执行官Thomas Kurian周四晚间在X(前Twitter)上表示:“我们一直在努力处理今天的中断,现在所有区域和产品已完全恢复。我们对给客户造成的干扰表示歉意。”
Cloudflare表示,由于其服务中断,包括WARP、SQLite支持的Durable Objects、Workers KV、Realtime、Workers AI、Stream、Waiting Room、部分Cloudflare仪表板项目、AI Gateway和AutoRAG在内的多项服务宕机超过两小时。
Cloudflare指出:“这是我们的失误,虽然此次中断的直接原因(或触发点)是第三方供应商故障,但我们最终对自己选择的依赖项及围绕它们的架构方式负责。”公司将根本原因归咎于其Workers KV服务使用的基础存储服务,该服务被描述为Cloudflare许多产品的关键依赖项。公司报告称,中断期间Workers KV的请求失败率达到90.22%。
Cloudflare首席技术官Dane Knecht在X上发文写道:“我们的Workers KV服务失败,依赖该服务的下游产品也出现了各自的中断。我们将很快发布完整的事后分析。”他补充道:“我知道这类事件对全球团队的工作和服务客户产生真实而严重的影响。除了本次事件的具体细节,事后分析将详细说明我们如何消除这种故障情况。我们将尽一切努力纠正问题,并对今天造成的问题道歉。”
据Synergy Research Group二月份的报告,Google Cloud目前排名第三,落后于AWS和Microsoft Azure,占据12%的云市场份额。根据HG Insights的2024年市场报告,Google Cloud Platform拥有近96万客户,其中一半在北美。
多元化的重要性
Capgemini的AI和数据负责人Pradeep Sanyal认为,此次事件可能会推动云市场的更多多元化。“在云时代,即使是最技术复杂的公司也通常通过依赖一个提供商来优化性能、成本和简单性,”他在采访中表示。“但正如本次事件所示,这种便利伴随着真实风险,尤其是在涉及存储或API管理等基础服务时。”
Sanyal指出,周四的中断还揭示了网络基础设施的错综复杂。“在技术方面,此次中断突显了现代互联网的深度交织。当Google的单个API配置错误能够级联导致Cloudflare、Spotify及无数其他服务中断时,这是一个警钟。Cloudflare的Workers KV存储成为单点故障的事实尤其具有指导意义。”
Sanyal补充说,他相信此类事件将导致大型提供商之间更多的多元化,至少在中短期内如此。“然而,”Sanyal表示,“多元化带来自身的成本和复杂性。对于超大规模提供商及其最大客户……这很可能成为董事会层面的讨论。”
Shane Snider是一位拥有20多年经验的资深记者,负责报道Informa TechTarget的IT基础设施。