AWS大规模中断瘫痪互联网:DNS故障导致全球服务崩溃
一场灾难性的亚马逊网络服务(AWS)中断于2025年10月20日发生,导致Snapchat、Amazon Prime Video和Canva等主要平台瘫痪,揭示了互联网对单一云服务商的危险依赖。
太平洋夏令时间凌晨12:11(印度标准时间下午12:41),AWS位于弗吉尼亚北部的US-East-1区域发生DNS解析故障,引发了全球范围的广泛中断,数百万用户的应用、网站和关键服务被冻结。
尽管在中午前得到解决,但此事件引发了对数字化基础设施多元化的迫切呼吁,以防止未来的混乱。
触发原因:DNS灾难
中断起源于AWS的DynamoDB,这是一个为数千个应用提供支持的至关重要的数据库服务。太平洋夏令时间凌晨12:11,工程师检测到与DNS解析故障相关的错误率升高,切断了用户与US-East-1区域网络网关之间的连接。
该区域拥有超过100个数据中心,作为全球路由枢纽,放大了故障的影响。
故障级联影响到核心服务,如弹性计算云(EC2)和简单存储服务(S3),使依赖这些服务的平台陷入瘫痪。
到东部时间凌晨3:00(印度标准时间下午12:30),中断跟踪器报告了数万起投诉,Snapchat消息停滞,Prime Video流媒体无限缓冲,Canva项目无法访问。甚至金融和医疗系统也面临延迟,凸显了中断的严重性。
故障时间线
AWS的服务健康仪表板跟踪了这场危机,工程师们竞相恢复稳定性:
- 太平洋夏令时间凌晨12:11(印度标准时间下午12:41):AWS标记DynamoDB错误,精确定位到与DNS相关的网关故障
- 太平洋夏令时间凌晨2:00(印度标准时间下午2:30):部分恢复显示进展,但各服务错误持续存在
- 东部时间凌晨3:35(印度标准时间下午1:05):核心问题得到解决,但由于传播延迟,完全恢复滞后
- 东部时间早上6:45(印度标准时间下午4:15):大多数服务趋于稳定,但高流量应用报告速度减慢
- 东部时间中午(印度标准时间晚上9:30):AWS宣布中断已修复,但用户注意到持续存在的小故障
影响范围
随着AWS占据云计算市场的三分之一份额,此次中断对各行业造成了严重打击。Snapchat和Reddit用户面临登录失败和动态停滞。Prime Video、Fortnite和Roblox遭受流媒体中断和服务器断开连接。
从学生到设计师的Canva用户失去了对关键项目的访问权限。亚马逊零售平台出现支付延迟,而像Robinhood这样的金融应用出现故障,令交易者感到震惊。
最令人担忧的是,一些医疗系统报告了中断,引发了对关键操作依赖云的担忧。企业面临数百万损失,小型公司和创作者因工作流程停滞而受到最严重打击。
US-East-1作为全球枢纽的角色放大了中断的影响,因为通过它进行路由以获取速度的国际服务陷入瘫痪。
后续影响
专家现在推动多云或混合策略,尽管这些对小型公司具有挑战性。鉴于AWS在医疗和金融等关键领域的作用,监管机构可能要求更严格的监督。
随着服务恢复,此次中断留下了持久的教训。企业必须使基础设施多样化,而消费者要求更清晰的中断沟通。AWS预计将发布事后分析,但此事件强调了一个关键事实:我们数字世界的强度依赖于脆弱的线索。分散云依赖现在对于防止未来中断至关重要。