AWS大规模故障深度解析：us-east-1区域如何成为互联网单点故障

AWS大规模故障：us-east-1区域SPOF化导致全球服务中断

2025年10月20日（周一）15时49分左右，Amazon Web Services（AWS）美国东部-1区域发生大规模故障。受此影响，亚马逊以及全球众多基于云服务器托管数据的应用程序、网络服务、任天堂Nintendo Switch Online等在线游戏系统等大量服务被迫中断。截至撰稿时服务已恢复，原因调查仍在进行中。

故障影响范围

AWS表示，在日本时间10月20日15时49分至18时24分期间，us-east-1区域的错误率和延迟时间增加。此次故障影响了Amazon.com及相关子公司，以及AWS支持中心的问题创建功能，导致客户无法创建支持工单。此外，亚马逊、Amazon Prime视频、亚马逊安防摄像头服务“Ring”、亚马逊AI助手“Alexa”均出现宕机。

更重要的是，将数据库置于AWS的服务几乎全部受到此次故障影响，被迫暂时停止。例如：

Apple App Store宕机
英国政府官方网站无法连接
英国大型金融机构劳埃德银行大部分服务受故障影响而宕机
日本邮政的Click Post确认无法使用Amazon Pay支付

游戏服务影响

多个游戏服务也受到严重影响：

《堡垒之夜》无法登录
《幻兽帕鲁》多人连接出现故障
任天堂网络服务全面停止
FromSoftware的《ELDEN RING NIGHTREIGN》也受到影响

网络流量影响

Cloudflare Radar报告称，受此次AWS us-east-1区域故障影响，流量比正常周一早上减少了约71%。

未受影响的服务

另一方面，X（原Twitter）成功避免了宕机。X所有者埃隆·马斯克发帖称“X运行正常”，并借机宣传X Chat：“消息完全加密，没有任何广告钩子或奇怪的‘AWS依赖关系’，即使有人用枪指着我的头，我也无法读取您的消息。”

此外，经济报纸Bloomberg因拥有自己的数据中心而避免了故障影响。

故障原因与恢复过程

10月20日17时26分，问题源头被确定为DynamoDB区域端点中的DNS解析故障。AWS工程师同时通过多个路径进行恢复操作，在18时24分前解决了DNS故障，此时各服务开始恢复。

然而，DNS故障解决后，依赖DynamoDB的EC2内部子系统仍存在故障，新实例启动失败现象持续。这进而对Network Load Balancer（NLB）的健康检查机制造成障碍，对Lambda、DynamoDB、CloudWatch等的网络连接产生了广泛影响。

17时38分，Network Load Balancer的健康检查机制恢复，网络连接性改善。从23时到次日21日4时，EC2实例启动成功率上升，Lambda函数调用错误也依次解决。21日上午4时至6时，Redshift、ECS、Glue等EC2依赖服务也趋于正常化，限制措施逐步解除。

10月21日7时01分，所有AWS服务恢复正常运行。虽然AWS Config、Redshift、Connect等部分服务的积压处理持续了数小时，但总体上已完全恢复。

根本原因分析

亚马逊表示：“此次故障的主要原因是us-east-1区域中DynamoDB服务端点的DNS解析错误”，并说明该故障通过依赖关系波及到EC2内部子系统和网络负载均衡器的健康检查机制。

此次故障的根本问题在于，尽管AWS在全球部署了大量数据中心，但由于许多企业默认使用us-east-1区域的设计，导致us-east-1区域成为了单点故障（SPOF）。

us-east-1是AWS最早运行的古老区域，Route 53和CloudFront等整个互联网的核心基础设施也经由该区域。因此，即使部分客户指定了其他区域，也有很多情况间接使用us-east-1区域的通信。可以说，AWS的us-east-1区域成为“实质上的互联网中枢”的状态，即使发生短时间故障也会引起全球范围的混乱。

备注

GIGAZINE因主要服务器位于公司内部自建的数据中心，避免了AWS故障的影响。