网络安全中的“防火英雄”悖论:为何预防问题无人喝彩

本文探讨了网络安全领域的一个核心困境:团队因忙于应急响应而陷入恶性循环,难以投入战略性预防工作。文章分析了“更努力工作”与“更聪明工作”的动态,指出追求短期效益的捷径如何破坏长期安全,并剖析了归因错误和英雄文化对行业的影响。

20多年前,Nelson Repenning和John Sterman在IEEE的《工程管理评论》上发表了一篇文章,题为《没有人会因解决从未发生的问题而获得赞誉:创造并维持流程改进》。当你阅读这篇文章时,你会意识到,安全领域所面临的问题并非独有,但我们的行业确实放大并加剧了许多其他领域常见的挑战,使其更难解决。

在本文中,我将深入探讨那篇杰作中与安全最相关的方面。首先,最重要的事实是:没有人会因解决了从未发生的安全问题而获得赞誉。这对安全团队和初创公司创始人都有着严重的后果,因为它实际上定义了哪些举措(或产品)可能从一开始就注定失败。它也回答了其他许多问题,比如我们为什么指责人而不是流程,为什么人们习惯于更努力工作而不是更聪明地工作,以及为什么我们喜欢走捷径,即使采取捷径的长期影响可能相当糟糕。

更努力工作 vs. 更聪明地工作

IEEE文章的作者Nelson和John用非常简单的术语解释了为什么安全团队与其他职能部门类似,会陷入无休止的“救火”循环。

这里的想法很简单。安全团队把所有时间都花在处理事件、工单和警报上——所有这些都导致了众所周知的疲劳。一切都在“着火”,工作量不堪重负,团队永远无法达到有时间去追求更具战略性举措的地步。因为团队深陷于所有这些手动、重复、低价值的工作,他们永远没有时间优先考虑投资于基础卫生、架构变更或弹性。这就形成了一个恶性循环:他们救火越多,系统就变得越脆弱;系统越脆弱,他们就需要更多的救火来防止其崩溃。

Nelson和John解释说,其核心原因是更努力工作会带来即时的绩效提升。人们投入工作的时间和精力越多,结果就越好。此外,改进是立竿见影的,而且易于衡量。问题在于,更努力工作的好处是相当短暂的。随着改进流程的时间减少,能力会慢慢恶化,最终达到一个点,仅仅靠更努力地工作也不会取得太大效果。这就是为什么作者将更努力工作描述为“先好后坏”:起初,更努力工作会带来立竿见影的改进,但随着时间的推移,情况会变得更糟。

所谓的更聪明工作方法则相反。当公司决定优先考虑一些大规模的改进举措时,短期内,事情会放缓,因为人们被各种改进分散了注意力,无法在日常运营任务上投入同样多的精力。然而,最终,能力和成熟度水平的提升足以弥补最初的生产力损失,并且安全团队从长远来看会变得高效得多。文章作者将其描述为一种“先坏后好”的动态。

我们在现实世界中总是看到这些事情的发生。像盘点所有资产、重构IAM、重新设计网段、记录架构和实施零信任这样的基础性工作,最初会使一切放缓,而且很难看出它如何能立即减少事件。然而,随着时间的推移,正是这些运营改进赋予了安全团队超能力,并使他们从长远来看更有效、更高效、更有生产力。由于大多数人不适应更聪明工作所带来的初期生产力下降,他们宁愿专注于那些能立竿见影地提高生产力的举措,即使从长远来看,这些举措实际上效果较差。

好的安全毁于捷径

可以说,好的安全是被捷径摧毁的,不仅包括整个组织中人们采取的捷径,也包括安全团队自己采取的捷径。

当安全团队面临用更少时间做更多事情的压力时,他们不得不偷工减料,而自然受到影响的是那些感觉不那么紧急的事情,比如改进举措、文档记录、维护和根本原因分析。一方面,这是可以理解的,因为在短期内,走这条路可以使安全团队在其他领域完成更多工作,并埋头于一些日常运营任务。但从长远来看,他们最终会为这些“奢侈行为”付出代价。跳过威胁建模、不完全修补、忽视IaC错误配置、不清理IAM异常以及推迟其他基础工作,都会创造无形的长期风险,这些风险不断累积,最终在某人面前爆发。

以下是文章作者如何解释这一现象:“捷径很诱人,因为在偷工减料和能力随之下降之间通常有相当长的延迟。例如,推迟预防性维护的主管通常会经历一个‘宽限期’,在此期间他们获得产量增加的好处(通过避免计划停机)并节省维护成本。直到后来,随着设备老化和磨损,他们才开始经历产量降低和正常运行时间减少。[…] 同样,一个为了按时完成项目而放弃文档记录的软件工程师,短期内几乎不会产生任何成本;只有当她后来返回修复测试中发现的错误时,她才会感受到几周或几个月前做出的决定的全部影响。”

归因错误的力量

我们的行业是心理学家称为“基本归因错误”的一个典型例子。以下是文章作者如何解释这一现象。

“假设你是一位面临绩效不足的管理者。你的运营没有达到目标,你必须对此采取措施。[…] 你有两个基本选择:让人们更努力工作,或者让他们更聪明地工作。要做出决定,你必须对低绩效的原因做出判断。如果你认为系统因能力低下而表现不佳,那么你应该专注于更聪明地工作。另一方面,如果你认为你的工人或工程师有点懒惰、不守纪律,或者只是在逃避责任,那么你需要让他们更努力工作。

你如何决定?研究表明,人们通常认为原因和结果在时间和空间上密切相关:为了解释一个令人困惑的事件,我们会寻找另一个可能引发它的近期、邻近事件。人们也倾向于认为每个事件都有单一原因,低估时间延迟,并且未能考虑反馈过程。这些因果归因在工作环境中如何体现?考虑一位观察到机器操作员产生异常高缺陷数量的管理者。管理者可能会认为是工人的错:工人与缺陷的产生在空间和时间上都很接近,而且其他操作员的缺陷率较低。然而,真正的原因可能离它造成的缺陷在空间和时间上都很遥远。也许缺陷实际上是由于维护程序不足或培训计划质量差造成的。在这种情况下,真实原因和有缺陷产出之间的延迟是长的、可变的,并且通常无法观察到。因此,管理者很可能得出结论,认为低产量的原因是工人努力不足或纪律不严,而不是流程的特点。”

我们在安全领域总是看到这种情况。安全团队说,违规事件的发生是由于用户错误,因为用户“愚蠢,没有安全意识,忽视政策,并且忍不住点击链接”,而不是系统(超负荷、糟糕的流程等)的问题。而公司高管则将违规事件归咎于“糟糕的安全团队”,而不是系统性问提,如长期投资不足、技术债务、复杂性和缺乏自动化。

救火循环催生英雄文化

安全团队陷入救火模式,只有相对少数能够为自己争取到时间和空间来优先考虑专注于更聪明(而非更努力)工作的战略性举措,这一事实导致了严重的后果。以下是Nelson Repenning和John Sterman在他们经验中的观察:

“随着组织越来越依赖救火和更努力工作来解决由低流程能力引起的问题,他们会奖励和提拔那些通过英勇努力设法挽救陷入困境的项目或保持生产线运转的人。因此,大多数组织奖励最后时刻的问题解决,而不是首先防止此类危机发生的学习、培训和改进活动。正如一位汽车公司的工程师告诉我们,‘没有人会因解决从未发生的问题而获得赞誉。’随着时间的推移,高级管理层将越来越多地由这些‘战争英雄’组成,他们很可能培养并青睐其他像他们一样‘能干’的人。正如我们采访的一位项目负责人所描述的,‘我们的[公司]文化奖励英雄。坦率地说,我就是这样走到今天的。我在压力和困难的情况下交付了项目,随之而来的回报是你被认可为一个能够交付的人。这些就是晋升的机会。’”

阅读这段文字可以清楚地看到,虽然安全领域肯定不是人们难以争取时间和空间去更聪明工作(而不仅仅是更努力工作)的唯一地方,但它无疑是这种现象的一个好例子。

一般来说,看到安全团队在其组织中获得足够权力来实施预防性控制并防止问题发生,这是相当罕见的。预防意味着摩擦,所以不仅是“没有人会因解决从未发生的问题而获得赞誉”,而且也没有人能够承担引入更多摩擦的代价。

陷入控制力不足、资源不足和支持不足的境地,难怪安全专业人员经常成为所谓英雄文化的受害者。老实说,这很难责怪他们:毕竟,大多数安全人员都在尽最大努力利用他们得到的有限支持和资源。如果你有兴趣了解更多关于英雄文化及其在安全领域如何表现的信息,我推荐阅读我和Kymberlee Price大约两年前发表的一篇文章,题为《网络安全中的英雄文化:起源、影响以及我们需要打破这个有毒循环的原因》。(剧透警告——它今天和两年前一样具有现实意义)。

总结一切

Venture in Security的一位读者Michael A. Davis曾经在我另一篇文章下留下了一条评论,他比我以往任何时候都更好地解释了我在这里讨论的话题的后果。他说:“如果这并非网络安全独有,而是所有组织处理预防与应对的方式呢?我认为同样的动态出现在制造业(特别是质量控制)、医疗保健(预防医学)和建筑/基础设施(维护与修复周期)中。

模式似乎是:

  1. 组织陷入救火模式,因为这是可见且受奖励的。
  2. 先行者试图向淹没在今天危机和问题中的团队推销他们应该‘处理明天的问题’。
  3. 只有像违规或监管指令这样的外部力量才能造成足够的痛苦来打破这个循环。
  4. 当市场从‘理论风险’转向‘紧急需求’时,后来者恰好到达。”

这是一个相当好的总结。我唯一想补充的是,虽然历史上,预防性安全产品比那些更侧重于检测和响应(即救火)的产品更难推广,但在最近几年,预防开始获得相当多的关注。我们不仅看到新一代公司的出现,包括像BforeAI、Aryon和R6 Security这样的初创公司,甚至Gartner似乎也在提出“先发制人网络安全”的理念。时间会告诉我们是否能够克服传统上与预防性和先发制人安全措施相关的组织惯性,但我认为当许多聪明而固执的人尝试做某件事时,这通常是一个好迹象。

这不仅是为了让Gartner为预防性安全设立一个新类别。我认为更重要的是赋予安全团队权限,让他们能够优先考虑更聪明地工作,走在问题前面,规划未来,并找到时间去追求我所认识的每个安全团队都希望找到时间和资源进行的大规模举措。这关乎卫生和防止问题发生的心态,远比特定的产品或产品类别重要得多。

展望未来

自从Nelson Repenning和John Sterman发表他们的文章,解释没有人会因解决从未发生的问题而获得赞誉以来,已经过去了20多年。他们谈论的是企业在总体上是如何进行决策的。虽然这些都与安全无关,但我们的行业只是放大了商业其他领域中出现的问题。

在未来几年,我希望更多的安全领导者能够获得信任和政治资本,在他们的组织中倡导优先考虑更聪明地工作。我看到如此多的CISO试图做正确的事情,但却遇到内部障碍,以至于我别无选择,只能乐观地认为情况会变得更好。我也希望我们将看到更多初创公司提出想法,重新构想老问题并找到现代解决方案,而不仅仅是自动化和编纂我们一直以来都在做的那些旧的、无效的方法。这与Tomer Weingarten在我们最近的《Inside the Network》节目中描述的增量思维是同一个问题。我们整个行业都可以做得更好,我毫不怀疑我们会做到。

如果你喜欢我的博客,请订阅并与你的朋友分享。我在空闲时间做这件事,所以看到读者数量增长有助于我保持动力并写更多东西。除了我的文章,我不会发送任何东西,也不会把你的数据卖给任何人,因为我有更好的事情要做。

如果你是一名建设者——现任或有抱负的初创公司创始人、安全从业者、营销或销售负责人、产品经理、投资者、软件开发人员、行业分析师,或其他正在构建网络安全未来的人,请查看我的畅销书《Cyber for Builders》。

如果你的公司有兴趣赞助Venture in Security,请查看赞助页面。

最后,请查看Inside the Network播客,我们为你带来构建网络安全未来的最佳创始人、运营者和投资者。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计