Cloudflare服务中断：一次意外的网络安全压力测试

2025年11月19日

一次发生在Cloudflare的间歇性服务中断在周二短暂地导致了许多顶级互联网网站离线。一些受影响的Cloudflare客户能够临时切换到其他平台，以便访客仍能访问他们的网站。但安全专家表示，对于那些依赖Cloudflare来阻挡多种滥用和恶意流量的组织来说，这样做也可能触发了一次即兴的网络渗透测试。

美国东部时间11月18日大约早上6:30（UTC时间11:30），Cloudflare的状态页面承认公司正在经历“内部服务降级”。在Cloudflare服务多次恢复又中断的几个小时后，许多使用Cloudflare服务的网站发现它们无法迁移走，因为Cloudflare的管理门户无法访问，和/或因为它们同时也从Cloudflare获取域名系统（DNS）服务。

然而，一些客户确实在中断期间成功将其域名从Cloudflare切换走。IANS Research的教员Aaron Turner表示，这些组织中的许多可能需要更仔细地查看他们在该时间段内的Web应用防火墙（WAF）日志。

Turner说，Cloudflare的WAF在过滤匹配前十种应用层攻击类型的恶意流量方面做得很好，包括凭据填充、跨站脚本（XSS）、SQL注入、机器人攻击和API滥用。但他表示，这次中断可能是Cloudflare客户更好地了解在没有Cloudflare帮助的情况下他们自己的应用和网站防御可能存在哪些不足的好机会。

“过去，你的开发人员可能因为Cloudflare在边缘阻止了SQL注入攻击而变得懒惰，”Turner说。“也许你对某些事情没有进行最好的安全质量保证（QA），因为Cloudflare是弥补这一点的控制层。”

Turner说，他正在合作的一家公司看到日志量激增，他们仍在努力弄清楚哪些是“真正的恶意”流量，哪些只是噪音。

“看起来，大约有一个八小时的时间窗口，几个知名网站为了可用性决定绕过Cloudflare，”Turner说。“许多公司基本上依赖Cloudflare来防御OWASP Top 10（十大Web应用安全风险）和一系列机器人阻挡。在那个窗口期内可能发生了多少恶意行为？任何做出这个决定的组织都需要仔细查看任何暴露的基础设施，看看在他们切换回Cloudflare防护后，是否有人持续存在。”

Turner说，一些网络犯罪团伙很可能注意到了他们通常盯着的在线商家在服务中断期间停止使用Cloudflare的服务。

“假设你是一名攻击者，试图攻入一个目标，但你觉得过去Cloudflare是障碍，”他说。“然后你通过DNS变化发现，目标由于服务中断已从其Web技术栈中移除了Cloudflare。你现在将发起一大堆新的攻击，因为保护层已经不存在了。”

总部位于弗吉尼亚州麦克莱恩的Replica Cyber公司的高级产品营销经理Nicole Scott称昨天的服务中断是“一次免费的桌面演练，无论你是否打算进行。”

“那几小时的窗口期是对你的组织如何绕过其自身控制平面以及在时间压力下影子IT如何滋生的现场压力测试，”Scott在LinkedIn的一篇帖子中说。“是的，查看在防护减弱期间击中你的流量。但也要仔细审视你组织内部的行为。”

Scott说，寻求从Cloudflare中断中获取安全洞察的组织应该问自己：

什么被关闭或绕过了（WAF、机器人防护、地理位置阻挡）？持续了多长时间？
进行了哪些紧急DNS或路由更改？谁批准的？
是否有人为了应对中断，将工作转移到个人设备、家庭Wi-Fi或未经批准的软件即服务提供商？
是否有人“暂时”启动了新服务、隧道或供应商账户？
是否有计划撤销这些更改，或者它们现在变成了永久性的变通方案？
对于下一次事件，什么是经过深思熟虑的备用计划，而不是分散的临时应对？

在周二晚间发布的一份事后分析报告中，Cloudflare表示，此次中断并非由任何类型的网络攻击或恶意活动直接或间接造成。

“相反，它是由对我们一个数据库系统权限的更改触发的，该更改导致数据库向我们的机器人管理系统使用的‘特征文件’中输出多个条目，”Cloudflare首席执行官Matthew Prince写道。“那个特征文件的大小因此翻倍。随后，这个比预期大的特征文件被传播到构成我们网络的所有机器上。”

Cloudflare估计，大约20%的网站使用其服务，并且由于大部分现代网络严重依赖包括AWS和Azure在内的少数其他云提供商，即使其中一个平台出现短暂中断，也可能为许多组织创造出一个单一故障点。

IT咨询公司Quod Orbis的首席执行官Martin Greenfield表示，周二的这次中断再次提醒我们，许多组织可能把太多鸡蛋放在了一个篮子里。

“有几个实用且早就该做的补救措施，”Greenfield建议道。“拆分你的资产。将WAF和DDoS防护分散到多个区域。使用多供应商DNS。对应用进行分段，这样单一提供商的中断就不会产生连锁反应。并持续监控控制措施，以检测对单一供应商的依赖。”