AWS确认正在努力"全面恢复"大规模中断后的服务
亚马逊网络服务(AWS)用户遭遇服务中断,这家公有云巨头的北弗吉尼亚数据中心区域出现技术故障。
AWS表示正在努力"全面恢复"客户的云环境,此前其北弗吉尼亚数据中心区域的"运营问题"导致全球多个网站和服务瘫痪。
根据中断追踪网站Downtime Detector的数据,公有云巨头的服务用户大约在英国时间上午8点开始报告问题。这大约与AWS健康仪表板服务开始追踪其北弗吉尼亚US-East-1区域内多个服务问题的时间相同。
随后仪表板多次承认US-East-1区域内的AWS服务存在"严重错误率",同时保证公司已安排工程师"立即参与并积极解决问题,同时全面了解根本原因"。
英国时间上午10点左右,仪表板进一步确认:“依赖US-East-1端点的全球服务或功能…也可能遇到问题。”
AWS随后表示中断与其DynamoDB NoSQL数据库服务的DNS问题有关:“我们已经确定了US-East-1区域DynamoDB API错误率的潜在根本原因。根据调查,问题似乎与US-East-1区域DynamoDB API端点的DNS解析有关。”
已知这些技术故障对全球许多AWS客户产生了连锁影响,他们也报告了因云巨头服务中断而出现的问题。
受影响方包括金融服务提供商劳埃德银行及其哈利法克斯银行和苏格兰皇家银行子公司,以及Snapchat和Signal等社交媒体和通信服务,还有在线游戏门户Fortnite和Roblox。
亚马逊旗下的互联网服务,如其零售网站和Ring门铃服务,也因这次中断而遭受干扰。
公开云市场观察家迅速指出,因中断而离线的广泛用户和服务范围,可能表明世界对AWS服务的过度依赖程度。
专家声称,这些事件突显了企业为了正常运行时间和服务可用性而多样化其合作的云提供商组合的重要性。
开放云联盟高级顾问Nicky Stewart表示,考虑到其影响的广泛性,这次中断是"对过度依赖两家主导云提供商风险的生动提醒"。
数字转型咨询公司Public Digital的首席技术官Dai Vaughan表示,AWS中断表明意外技术故障可能对公司运营构成与网络攻击同样大的风险。
因此,他表示公司应利用今天的新闻来培养一种"防御心态",以规避停机威胁,长期"拥抱准备和韧性"。
他继续说:“那些采取这种整体性、预期性和互联网时代方法的人,不仅将保护其运营,还将在不确定的数字环境中保持与客户和合作伙伴的信任。”