AWS大规模服务中断背后的技术故障
亚马逊网络服务在2025年10月19日至20日经历了一次重大中断,影响了数百万客户和亚马逊自身的运营。该公司现已确认,区域DynamoDB服务端点的DNS解析问题是导致此次中断的根本原因,中断持续了大约两小时三十五分钟。
DNS出了什么问题
中断始于太平洋夏令时间10月19日晚上11:49,一直持续到太平洋夏令时间10月20日凌晨2:24。在此期间,美国东部1区的AWS服务经历了显著增加的错误率。
问题并非广泛的基础设施故障,而是系统解析DynamoDB端点地址的具体问题。DynamoDB是亚马逊的高性能数据库服务,为无数应用程序提供支持。当DNS系统无法正确将这些服务的请求定向时,就在整个AWS生态系统中产生了一系列连锁问题。
亚马逊网站在事件期间也出现故障,同时还有众多亚马逊子公司服务和AWS客户支持运营。
应急响应与恢复过程
AWS工程师在太平洋夏令时间凌晨12:26识别出DNS解析问题,并立即开始缓解工作。他们在太平洋夏令时间凌晨2:24成功解决了核心DynamoDB DNS问题,标志着恢复工作的第一个重要里程碑。
然而,解决主要问题并没有立即让一切恢复正常。即使在DNS问题修复后,一小部分内部子系统仍然受损。这些遗留问题迫使AWS采取了一个临时但具有战略意义的步骤:他们限制了某些操作,特别是新的EC2实例启动。
这意味着系统有意减慢或延迟了一些请求,而不是让它们完全失败。虽然这听起来有违直觉,但实际上通过防止系统过载,帮助系统更平稳地恢复。
到太平洋夏令时间下午12:28,AWS服务和客户系统已经显示出显著的恢复进展。AWS在整个下午继续逐步减少对EC2实例启动操作的限制。公司的技术团队有条不紊地处理剩余的影响区域,同时持续监控系统健康状况。
到太平洋夏令时间10月20日下午3:01,AWS宣布所有服务已恢复正常运营。从最初检测到完全恢复的整个过程耗时约15小时。虽然中断只持续了大约两个半小时,但后续影响和恢复操作持续的时间要长得多。
后续措施
AWS已发布详细的事后总结,准确解释了发生的事情、团队如何响应以及他们正在实施哪些更改以防止类似事件发生。亚马逊建议遇到任何遗留问题的客户查看AWS健康仪表板以获取实时状态更新和有关任何可能仍遇到困难的服务附加信息。