AWS大规模故障:us-east-1区域SPOF化导致全球服务中断
2025年10月20日(周一)15时49分左右,Amazon Web Services(AWS)美国东部-1区域发生大规模故障。受此影响,亚马逊以及全球众多基于云服务器托管数据的应用程序、网络服务、任天堂Nintendo Switch Online等在线游戏系统等大量服务被迫中断。截至撰稿时服务已恢复,原因调查仍在进行中。
故障影响范围
AWS表示,在日本时间10月20日15时49分至18时24分期间,us-east-1区域的错误率和延迟时间增加。此次故障影响了Amazon.com及相关子公司,以及AWS支持中心的问题创建功能,导致客户无法创建支持工单。此外,亚马逊、Amazon Prime视频、亚马逊安防摄像头服务“Ring”、亚马逊AI助手“Alexa”均出现宕机。
更重要的是,将数据库置于AWS的服务几乎全部受到此次故障影响,被迫暂时停止。例如:
- Apple App Store宕机
- 英国政府官方网站无法连接
- 英国大型金融机构劳埃德银行大部分服务受故障影响而宕机
- 日本邮政的Click Post确认无法使用Amazon Pay支付
游戏服务影响
多个游戏服务也受到严重影响:
- 《堡垒之夜》无法登录
- 《幻兽帕鲁》多人连接出现故障
- 任天堂网络服务全面停止
- FromSoftware的《ELDEN RING NIGHTREIGN》也受到影响
网络流量影响
Cloudflare Radar报告称,受此次AWS us-east-1区域故障影响,流量比正常周一早上减少了约71%。
未受影响的服务
另一方面,X(原Twitter)成功避免了宕机。X所有者埃隆·马斯克发帖称“X运行正常”,并借机宣传X Chat:“消息完全加密,没有任何广告钩子或奇怪的‘AWS依赖关系’,即使有人用枪指着我的头,我也无法读取您的消息。”
此外,经济报纸Bloomberg因拥有自己的数据中心而避免了故障影响。
故障原因与恢复过程
10月20日17时26分,问题源头被确定为DynamoDB区域端点中的DNS解析故障。AWS工程师同时通过多个路径进行恢复操作,在18时24分前解决了DNS故障,此时各服务开始恢复。
然而,DNS故障解决后,依赖DynamoDB的EC2内部子系统仍存在故障,新实例启动失败现象持续。这进而对Network Load Balancer(NLB)的健康检查机制造成障碍,对Lambda、DynamoDB、CloudWatch等的网络连接产生了广泛影响。
17时38分,Network Load Balancer的健康检查机制恢复,网络连接性改善。从23时到次日21日4时,EC2实例启动成功率上升,Lambda函数调用错误也依次解决。21日上午4时至6时,Redshift、ECS、Glue等EC2依赖服务也趋于正常化,限制措施逐步解除。
10月21日7时01分,所有AWS服务恢复正常运行。虽然AWS Config、Redshift、Connect等部分服务的积压处理持续了数小时,但总体上已完全恢复。
根本原因分析
亚马逊表示:“此次故障的主要原因是us-east-1区域中DynamoDB服务端点的DNS解析错误”,并说明该故障通过依赖关系波及到EC2内部子系统和网络负载均衡器的健康检查机制。
此次故障的根本问题在于,尽管AWS在全球部署了大量数据中心,但由于许多企业默认使用us-east-1区域的设计,导致us-east-1区域成为了单点故障(SPOF)。
us-east-1是AWS最早运行的古老区域,Route 53和CloudFront等整个互联网的核心基础设施也经由该区域。因此,即使部分客户指定了其他区域,也有很多情况间接使用us-east-1区域的通信。可以说,AWS的us-east-1区域成为“实质上的互联网中枢”的状态,即使发生短时间故障也会引起全球范围的混乱。
备注
GIGAZINE因主要服务器位于公司内部自建的数据中心,避免了AWS故障的影响。