AWS大规模服务中断:DNS问题引发全球云服务瘫痪

亚马逊AWS北弗吉尼亚数据中心因DNS解析问题导致大规模服务中断,影响DynamoDB数据库及全球众多互联网服务。事件引发对云服务过度依赖的反思,专家建议企业采用多云策略提升业务连续性。

AWS确认正在努力"全面恢复"大规模中断后的服务

亚马逊网络服务(AWS)用户遭遇服务中断,这家公有云巨头的北弗吉尼亚数据中心区域出现技术故障。

AWS表示正在努力"全面恢复"客户的云环境,此前其北弗吉尼亚数据中心区域的"运营问题"导致全球多个网站和服务瘫痪。

根据中断追踪网站Downtime Detector的数据,公有云巨头的服务用户大约在英国时间上午8点开始报告问题。这大约与AWS健康仪表板服务开始追踪其北弗吉尼亚US-East-1区域托管的多项服务问题的时间相同。

随后仪表板多次承认影响US-East-1区域AWS服务的"严重错误率",同时保证公司有工程师"立即参与并积极解决问题,并全面了解根本原因"。

仪表板后来在英国时间上午10点左右确认:“依赖US-East-1端点的全球服务或功能…也可能遇到问题。”

AWS随后表示中断与其DynamoDB NoSQL数据库服务的DNS问题有关:“我们已经确定了US-East-1区域DynamoDB API错误率的潜在根本原因。根据我们的调查,问题似乎与US-East-1中DynamoDB API端点的DNS解析有关。”

已知技术故障对全球许多AWS客户产生了连锁反应,他们也报告了因云巨头服务中断而导致的问题。

受影响者包括金融服务提供商劳埃德银行及其哈利法克斯和苏格兰皇家银行子公司,以及Snapchat和Signal等社交媒体和通信服务,还有在线游戏门户Fortnite和Roblox。

亚马逊自有互联网服务,如其零售网站和Ring门铃服务,也因中断而遭受干扰。

即使如此,公有云市场观察家迅速指出,因中断而离线的广泛用户和服务范围可能表明世界对AWS服务的过度依赖程度。

专家声称,这些事件突显了企业为了正常运行时间和服务可用性而多样化其合作的云提供商组合的重要性。

开放云联盟高级顾问Nicky Stewart表示,考虑到其影响的广泛性,这次中断是"对过度依赖两个主导云提供商风险的生动提醒"。

数字转型咨询公司Public Digital的首席技术官Dai Vaughan表示,AWS中断表明意外技术故障可能对公司运营构成与网络攻击一样大的风险。

因此,他表示公司应利用今天的新闻来培养一种"防御心态",以规避停机威胁,长期"拥抱准备和韧性"。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计