AWS大规模中断事件深度解析：云服务故障如何影响全球互联网

UPDATE Tuesday, 1:41 p.m. ET: 随着亚马逊AWS问题完全解决，网络世界在周二开始进行事后分析。看到互联网生态系统如此脆弱令人担忧，却又在意料之中。当像AWS这样的核心支柱出现故障时，它会连带拖垮互联网的大部分。我们之前在Google Cloud、Microsoft、CrowdStrike等公司也见过类似情况。现代互联网广阔但脆弱。正如许多新闻媒体指出的那样，少数大型科技公司占据着巨大的市场份额，当这些服务出现故障时，下游影响可能令人不安。这正是周一发生的情况。

UPDATE Tuesday, 9:30 a.m. ET: 虽然亚马逊的AWS服务在周二前已完全恢复，但大规模中断的后果仍在逐渐明朗。单一服务的问题对维持我们生活正常运转的基本事物造成了重大干扰。Canvas崩溃，扰乱了全国的学习。劳埃德银行客户无法访问其账户。一些美联航乘客无法办理登机手续或查看预订信息。人们的闹钟没有响。例子不胜枚举——这是一次彻底的崩溃。对某些人来说，周一是大型科技公司过于庞大的一个例子。如果AWS中断能引发如此广泛的问题，这可能是一个问题。“如果一家公司能搞垮整个互联网，那它就太大了。句号，“民主党参议员伊丽莎白·沃伦在X上写道。“是时候拆分大型科技公司了。”

UPDATE Monday, 8:20 p.m. ET: 亚马逊提供了更多关于如何修复其AWS服务的更新，并指出，“截至下午3:01 [PT，或东部时间晚上6:01]，所有AWS服务已恢复正常运行。一些服务如AWS Config、Redshift和Connect仍有消息积压，它们将在未来几个小时内完成处理。我们将分享详细的AWS事后总结。”

UPDATE Monday, 5:05 p.m. ET: 亚马逊的最新更新表明其AWS服务正朝着完全解决的方向进展。“所有AWS服务的恢复情况持续改善，“该公司写道。它指出正在继续"减少"某些受影响工具的"限制”。

UPDATE Monday, 3:41 p.m. ET: 亚马逊表示其AWS服务正在顺利全面恢复。“我们继续观察到所有AWS服务的恢复，“该公司写道。但它确实指出，客户在使用其无服务器计算服务Lambda时可能仍会遇到"间歇性功能错误”。AWS在周一凌晨经历了重大中断，短暂恢复，然后在东海岸接近中午时出现进一步问题。您可以在原文和本文的定期更新中阅读关于这两次中断的完整解释，但简而言之，AWS的任何问题都意味着互联网大片区域会出现重大问题。诸如美联航、Snapchat、麦当劳、Verizon、Venmo等无数网站和服务在Downdetector上用户报告的问题数量都出现了激增。虽然互联网很广阔，但有少数支柱——AWS或许是其中最主要的——如果它们出现问题，可能会导致大规模、破坏性的下游影响。

UPDATE Monday, 3:01 p.m. ET: 亚马逊表示，其为补救其AWS服务问题所做的持续努力似乎正在奏效，根据其状态页面的最新更新，它看到"网络连接问题正在减少”。用户在Downdetector上报告的AWS问题数量仍然相对较高，不过许多显然受AWS中断影响的第三方服务似乎正在恢复。对AWS来说，这是一个极其动荡的周一。这个流行的云平台在凌晨经历了重大中断，短暂恢复，然后在中午左右遇到了新的问题。

UPDATE Monday, 2:15 p.m. ET: 亚马逊表示其修复连接问题的努力似乎正在起作用。其广受欢迎的AWS云平台在周一中午左右开始出现新的问题，而就在周一凌晨发生重大中断几小时之后。该公司写道，其"缓解启动失败的措施"正在取得进展，并且预计随着更广泛地应用修复程序，“启动错误和网络连接问题将逐渐减少”。

UPDATE Monday, 1:15 p.m. ET: 亚马逊写道，它正在努力修复周一东部时间中午出现的连接问题，这些问题发生在当天凌晨重大中断几小时后。“我们继续采取措施缓解网络负载均衡器的健康状况，并恢复大多数AWS服务的连接，“AWS状态页面的最新更新写道。圣母大学的IT教授Mike Chapple表示，在最初中断之后出现进一步问题不一定是一个令人意外的发展。“虽然这具有破坏性，但并不罕见。修复严重的IT基础设施问题通常会产生新的问题，而且修复通常需要在一段时间内跨大量系统推出，“Chapple在给Mashable的电子邮件声明中说。“随着工程师努力稳定系统，操作慢慢稳定下来，事情恢复正常。可以把它想象成一个大城市发生的公用事业中断。维修人员工作时，电力可能会闪烁几次。我们现在在AWS上看到了类似的情况。”

UPDATE Monday, 12:15 p.m. ET: 亚马逊表示，它正在锁定导致周一AWS出现新问题的根本原因。“我们已经缩小了影响AWS服务的网络连接问题的根源，“AWS状态页面的最新更新写道。“根本原因是一个负责监控我们网络负载均衡器健康状况的基础内部子系统。“目前尚不清楚中断和问题何时能完全解决。

UPDATE Monday, 11:45 a.m. ET: 亚马逊确认AWS在周一晚些时候遇到更多问题，而就在问题似乎解决几小时后。该公司在其对AWS状态页面的最新更新中写道，正在调查"影响DynamoDB、SQS和Amazon Connect等AWS服务的网络连接问题的根本原因”。与此同时，整个互联网的大范围服务中断仍在继续。根据Downdetector的数据，许多流行服务的用户报告问题激增，包括FanDuel、Snapchat、Apple Music、Asana、Verizon等等。AWS再次出现的问题似乎很严重，并再次给大量用户带来问题。

亚马逊网络服务（AWS），亚马逊流行的云托管和数据服务，在周一发生了服务中断，给开始工作周的互联网用户造成了巨大问题。由于AWS为互联网的很大一部分提供支持，周一受影响的服务和网站列表相当惊人。根据Downdetector网站的用户报告，受影响的服务包括美联航、AT&T、Fortnite、Disney+、HBO Max、Signal、Snapchat、麦当劳、Verizon、Venmo等等。亚马逊的服务如Prime和Alexa也受到影响。简而言之：几乎任何人都可能以某种方式受到影响。我们拥有的几乎所有东西都连接到互联网——我们的冰箱是支持WiFi的广告牌——这意味着AWS中断会扰乱大部分人的生活。

接近中午时，问题似乎已经结束。但随后亚马逊的AWS健康仪表板指示问题再次出现。“我们已确认多个AWS服务在美国东部-1区域经历了网络连接问题，“大约东部时间上午10:30的更新写道。“我们看到连接问题出现早期恢复迹象，并继续调查根本原因。“看起来AWS再次遇到问题，尽管规模不及凌晨的中断。一些服务，如Venmo和Boost Mobile，在Downdetector上用户报告的问题相应激增。亚马逊此前曾表示该问题已完全解决或正在解决中。

是什么导致了AWS中断？

AWS最初宕机的确切原因尚不清楚，但我们有一个大概的了解。使用AWS的服务无法访问DynamoDB（一个由亚马逊运营的数据库），因为域名系统（DNS）出现了问题。DNS有效地将网站名称转换为IP地址。因此，当亚马逊在其健康仪表板上写道DNS问题已"完全缓解"时，它是在说真正的问题已得到修复。“亚马逊安全地存储了数据，但在几个小时内其他人都找不到它，导致应用程序暂时与其数据分离，“圣母大学的IT教授Mike Chapple告诉CNN。“这就像互联网的大部分区域暂时失忆了一样。“网络安全公司Sophos的威胁情报总监Rafe Pilling告诉《卫报》，该事件似乎不是网络攻击或任何恶意行为，这与亚马逊的声明一致。“当发生类似这样的事情时，担心是网络事件是可以理解的，“他告诉这家英国媒体。“AWS拥有影响深远且错综复杂的足迹，因此任何问题都可能导致重大混乱。“亚马逊很可能会在晚些时候进一步解释周一发生的事情。目前尚不清楚东部时间上午10:35的"网络连接问题"与最初的DNS问题有何关联（如果有的话），不过可以合理地假设，在服务努力恢复正常的过程中可能会出现一些问题。

为什么AWS中断如此严重？

简而言之：AWS是现代互联网的核心支柱。没有它，很多东西就会崩溃。随着大公司吞食市场份额，实际上使得互联网的基础设施变得异常脆弱——AWS、或Google、或Microsoft、或Crowdstrike出现问题意味着大量用户会遇到麻烦。倡导者甚至认为，对这些大玩家的这种依赖是一个言论自由问题。“我们迫切需要云计算领域的多样化，“数字人权组织Article 19的负责人Corinne Cath-Speth博士根据《卫报》的说法表示。“支撑民主话语、独立新闻和安全通信的基础设施不能依赖于少数几家公司。“总而言之：如果AWS出了问题，其他地方也会出很多问题。