重新定义现代社会的"关键基础设施"

本文探讨了传统关键基础设施定义的局限性,指出在现代数字时代,像Stripe、Twilio这样的云服务和SaaS平台已成为社会运转的核心,其故障会产生级联影响,需要重新思考关键基础设施的范畴。

重新定义现代社会的"关键基础设施"

为什么关键基础设施不仅是电网和水源,还应包括Stripe和Twilio等工具

作为我博客的常客可能已经意识到,我很少谈论"热门"事件。这并不是因为我不关心世界上正在发生的事情(恰恰相反),或者我认为新闻不重要(它们确实重要)。相反,我更喜欢讨论那些常青的话题,这意味着它们在新闻周期之外仍然具有相关性。

部分原因是我没有时间跟上所有事情,并对所有事情都有深入了解。另一个原因是,当你的声音必须与大量噪音竞争才能被听到时,很难提供有价值的东西。然而,同样重要的是,我希望《安全风险投资》在新的、最热门的故事过去几周和几个月后仍然具有相关性,而实现这一目标的方法就是讨论那些经受住社交媒体兴奋起伏的问题。

我说这些是为了铺垫一个事实:这篇文章将会有所不同。今天,我将一头扎进当天的主题,即AWS中断事件。但即使在这里,我主要还是按照自己的方式来处理。

关于AWS中断的新闻其实不是关于AWS中断

我需要在这里澄清一点:我实际上不会谈论AWS中断事件。有太多人在谈论其中的细节、原因、结果等等,再多一个声音也不会增加任何价值。与其谈论AWS,我认为值得以最广泛的方式讨论手头的问题。

很快就能在AWS中断和大约一年半前的CrowdStrike中断之间找到相似之处,这是一个公平的比较。我相信会有狂热者说"它们是不同的事件,因为……"(许多人可能是对的),但就结果而言,这两个事件在我看来非常相似。在这两种情况下,一个重要平台都出现了故障,导致依赖它的平台也随之崩溃。

这引出了我今天文章的主要观点。在我们关于供应链风险的讨论中,我们忘记了这里还有其他因素在起作用,那就是我们的数字世界由许多关键且几乎不可替代的组件驱动。我相信这正是关键基础设施的定义。

重新定义现代社会的"关键基础设施"

过时的关键基础设施定义

在大多数国家,“关键基础设施"一词是由可追溯到多年甚至几十年前的政府政策框架定义的。美国国土安全部下属的CISA解释说:“有16个关键基础设施部门,其资产、系统和网络,无论是物理的还是虚拟的,都被认为对美国至关重要,以至于它们的能力丧失或破坏将对安全、国家经济安全、国家公共卫生或安全,或任何组合产生削弱影响。“如果你看看这些部门的列表,就会觉得很有道理:能源、水、交通、通信、医疗保健、金融服务、制造业和其他领域确实都很关键。

美国不是唯一编制这种清单的国家。还有欧盟的NIS2指令、加拿大的关键基础设施国家战略,我相信如果你问ChatGPT,你会得到大多数国家类似内容的例子(希望都是真实的)。

所有这些框架都起源于国家稳定与物理世界紧密相连的时代:发电、石油管道、机场和应急响应系统。当时的想法是,我们需要保护那些如果中断可能会伤害很多人或中断关键公共服务的基础设施和系统。这种方法为政府提供了一致的方式来优先考虑最重要的事情,并将资源分配到最能发挥作用的地方。机构可以将职责分配给特定行业的监管机构,确定弹性要求,并建立诸如公私合作伙伴关系之类的东西来保护关键功能。这些框架在保护传统基础设施和协调地震等事件期间的应急响应方面已被证明非常有价值。但随着时间的推移,它们也被证明是不够的。

随着时间的推移,人们意识到数字世界很重要,我们现在看到支持许多关键功能的IT系统也出现在列表中。从表面上看,一切似乎都表明我们已经认识到数字世界确实很重要。当然,AWS、微软、埃森哲、甲骨文和许多其他组织现在成为CISA信息技术部门协调委员会的一部分是个好消息。我担心的是其他事情。

现代关键基础设施实际上是什么

坦白说,我不知道这个信息技术部门协调委员会是做什么的(如果我有足够的耐心阅读其章程,也许我会知道)。对我来说,这甚至不是最重要的部分。一切都始于谁在那个委员会上。

如果你仔细观察,你会发现该名单上很大一部分组织是科技巨头,如甲骨文、惠普、IBM、戴尔、AWS和微软,以及网络安全公司。这是有道理的,因为这些公司支持政府机构、医疗保健提供商和企业每天依赖的计算、存储和网络环境。它们提供了为数据中心和企业软件提供动力的基础技术,这些是现代等价物,相当于保持数字经济运转的道路和电力线路。

不太明显的是,我认为应该被视为"关键"的新一代公司并不在名单上。以Twilio为例:它提供消息传递和通信基础设施,嵌入从医院预约系统到银行和政府门户网站使用的双因素认证流程等所有领域。如果Twilio出现故障,整个认证和通知系统可能会在数千个组织中同时失败。同样,Stripe为全球数百万企业处理支付,使其成为全球金融系统的关键层。当Stripe的服务出现故障时,影响会波及每一个在线处理交易的企业,如电子商务、订阅平台和大量企业。

还有像Snowflake和Databricks这样的公司,它们已成为现代组织存储、处理和分析数据的核心。这些平台托管着医疗保健、金融、制造业和公共部门企业的敏感数据。它们的可用性直接影响组织的运营、决策和响应事件的能力。在这个列表中加入诸如Atlassian(支持工程协作)、Okta(身份和访问)、Cloudflare(网络和网络安全)和GitHub(软件开发基础设施)等平台。更好的例子是GoDaddy,一个管理全球大量域名的平台。这些工具中的每一个都支持大规模的核心业务运营,跨越各种规模的公司,如果其中任何一个经历长时间的中断,将受到影响的公司和整个行业的数量将会非常高。

所有这些都说明,当今"关键基础设施"的定义已经完全过时。数字世界中几乎所有事物都是相互依赖的,系统一个部分的故障可能导致我们甚至无法预测的级联效应。如果你想要证据,回想一下CrowdStrike中断事件。理论上,端点安全平台的中断不应该导致机场崩溃,但猜猜怎么着,它确实导致了。我当然希望我们不会看到越来越多的中断事件,但我们都知道我们的数字世界开始看起来越来越像那个古老而著名的梗图。

展望未来:这不只是文字游戏

当我们思考保护关键基础设施的问题时,优先考虑那些可能影响人们安全和福祉的事情肯定很重要。水、电、金融系统和其他领域当然是首先要考虑的正确事情。然而,重要的是不要忘记数字世界依赖于其自身的数字基础设施,这些基础设施都是相互连接的,而且正如我们每年都在了解的那样,极其脆弱。

我不知道这个问题的未来会是什么样子,但我知道这不仅仅是玩弄文字。认识到什么真正构成关键基础设施具有真实、有形的后果。我们如何定义"关键"决定了什么受到监管,什么弹性标准被强制执行,以及将实施什么样的事件响应和冗余规划。如果我们继续将云平台、SaaS生态系统和数字中介视为普通供应商,而不是基本系统,我们就会低估单次中断可能造成的破坏规模。一个运行在API、云工作负载和分布式服务上的现代经济依赖于一种不同的骨干,这种骨干是全球性的、数字化的和深度互联的。我们生活在一个这样的世界:Microsoft Entra ID的中断可能会扰乱飞机,Duo的中断可能会扰乱医院,Webex和Microsoft Teams的中断可能会扰乱应急响应。我们必须至少能够承认这一现实,并承认许多初创公司现在对我们社会运转的重要性与大型科技巨头一样重要。在我看来,这是为我们实际生活的世界而不是我们过去的世界建立韧性的第一步。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计