为何“预防性安全”总被忽视:深入探讨安全团队的工作困境与技术架构挑战

本文深入探讨了安全行业普遍存在的“重救火、轻预防”现象。文章分析了导致安全团队陷入应急响应循环的技术与组织根源,包括“勤奋工作”与“智慧工作”的悖论、捷径对长期安全的损害、归因错误的普遍性以及由此催生的“英雄文化”。同时,文章也展望了预防性安全(如零信任架构、资产清单、IAM重构等)的未来趋势。

没人会因为解决了从未发生过的安全问题而获得赞誉

我们在安全领域面临的挑战并非独一无二,但我们确实擅长把别人也有的问题放大到极致。

20多年前,Nelson Repenning和John Sterman在IEEE的《工程管理评论》上发表了一篇题为《没人会因为解决了从未发生过的问題而获得赞誉:创造并维持流程改进》的文章。阅读此文,你会意识到安全领域所面临的问题并非特例,但我们的行业放大了许多其他领域的常见挑战,并使它们更难解决。

在这篇文章中,我将深入探讨那篇佳作中与安全最相关的方面。首要的是,没人会因为解决了从未发生过的安全问题而获得赞誉。这对安全团队和初创公司创始人都产生了严重后果,因为它实际上定义了哪些举措(或产品)可能从一开始就注定失败。它也回答了许多其他问题,比如我们为什么责怪人而不是流程,为什么人们习惯于更努力地工作而不是更聪明地工作,以及为什么我们喜欢走捷径,即使采取捷径的长期影响可能相当糟糕。

本文由 Intruder 赞助…

扫描了3000万个域名后,我们在影子IT中发现了什么

仅凭公开数据,你能发现多少影子IT?我们做了实验,答案是:太多了。从存有有效凭证的备份文件到没有身份验证的管理面板,这些隐患对你来说不可见,但对攻击者却敞开着大门。阅读研究报告,看看我们发现了什么,以及Intruder如何帮助你率先发现它们。 查看我们的发现

欢迎来到 Venture in Security!在我们开始之前,请帮我个忙,确保你点击了“订阅”按钮。订阅让我知道你在乎,并激励我写更多内容。谢谢大家! 订阅

更努力地工作 vs 更聪明地工作

IEEE文章的作者Nelson和John用非常简单的术语解释了为什么安全团队(与其他职能部门类似)会陷入无休止的“救火”循环。

道理很简单。安全团队将所有时间都花在处理事件、工单和警报上——所有这些都会导致众所周知的疲劳。一切都在“着火”,工作量巨大,团队永远无法达到有时问去追求更具战略性举措的地步。因为团队陷入所有这些手动、重复、低价值的工作中,他们永远没时间去优先考虑投资于基础防护、架构变更或弹性建设。这就形成了一个恶性循环:他们越是“救火”,系统就越脆弱;系统越脆弱,他们就越需要“救火”以防止其崩溃。

Nelson和John解释说,其核心原因是更努力地工作会带来立竿见影的性能改善。人们投入工作的时间和精力越多,结果就越好。而且,这种改善是即时的,也易于衡量。问题在于,更努力工作的好处是相当短暂的。随着用于改进流程的时间减少,能力会慢慢恶化,最终达到一个仅靠增加工作量也无法取得多大成效的临界点。这就是为什么作者将更努力工作描述为“先好后坏”:起初,更努力工作会带来立竿见影的改善,但随着时间的推移,情况会变得更糟。

所谓的“更聪明地工作”则正好相反。当公司决定优先考虑一些更大规模的改进举措时,短期内,一切都会放缓,因为人们被各种改进工作分心,无法在日常运营任务上那么努力。然而,最终,能力和成熟度水平的提升足以弥补最初的生产力损失,并且安全团队的长期效率会高得多。文章作者将此描述为“先坏后好”的动态。

我们经常在现实世界中看到这些情况。诸如清点所有资产、重构IAM、重新设计网络分段、记录架构和实现零信任等基础性工作,最初会使一切放缓,而且很难看出它们如何能立即减少事件。然而,随着时间的推移,正是这些运营改进赋予了安全团队超能力,并使其在长期内变得更有效、更高效、更有生产力。由于大多数人不习惯“更聪明工作”所带来的初始生产力下降,他们更倾向于专注于能立即带来明显生产力提升的举措,即使从长远来看,这些举措实际上效果更差。

好的安全被捷径摧毁

可以说,好的安全是被捷径摧毁的,不仅是整个组织中其他人的捷径,还有安全团队自己采取的捷径。

当安全团队被要求在更少时间内做更多事情时,他们不得不偷工减料,而自然受损的就是那些感觉不那么紧迫的事情,比如改进计划、文档记录、维护和根因分析。一方面,这是可以理解的,因为在短期内,走这条路可以使安全团队在其他领域完成更多工作,并埋头处理一些日常运营任务。但从长远来看,他们最终会为这些“便利”付出代价。跳过威胁建模、不完全打补丁、忽视IaC错误配置、不清理IAM异常以及推迟其他基础性工作,会累积看不见的长期风险,最终在某个时刻爆发,让某人承担后果。

以下是文章作者如何解释这一现象的:

“捷径之所以诱人,是因为在偷工减料和能力下降之间通常存在相当大的延迟。例如,推迟预防性维护的主管通常会经历一个‘宽限期’,在此期间,他们通过避免计划停机获得产量增加的收益,并节省维护成本。只有后来,随着设备老化和磨损,他们才开始经历更低的产量和更低的正常运行时间。[…] 同样,一位为了按时完成项目而放弃文档记录的软件工程师,短期内几乎不会付出任何代价;只有后来,当她回来修复测试中发现的错误时,她才会感受到几周或几个月前所做的决定带来的全面影响。”

归因错误的威力

我们的行业是心理学家称为“基本归因错误”的一个典型例子。以下是文章作者如何解释这一现象:

“假设你是一位面临绩效不佳问题的经理。你的运营没有达到目标,你必须采取行动。[…] 你有两个基本选择:让人们更努力地工作,或者让他们更聪明地工作。要做出决定,你必须对低绩效的原因做出判断。如果你认为系统表现不佳是由于能力低下,那么你应该专注于更聪明地工作。另一方面,如果你认为你的工人或工程师有点懒惰、不守纪律,或者只是在偷懒,你需要让他们更努力地工作。你如何决定?研究表明,人们通常假设原因和结果在时间和空间上密切相关:为了解释一个令人费解的事件,我们会寻找另一个最近、附近可能触发它的事件。人们也倾向于认为每个事件都有一个单一原因,低估时间延迟,并且不考虑反馈过程。这些因果归因在工作环境中如何体现?考虑一位经理观察到一名机器操作员生产出异常多的缺陷产品。经理很可能会认为是工人的错:工人在空间和时间上都离缺陷产品的生产很近,而且其他操作员的缺陷率较低。然而,真正的原因可能在空间和时间上都远离它造成的缺陷。也许缺陷实际上是由于维护程序不当或培训计划质量差造成的。在这种情况下,真实原因和有缺陷产出之间的延迟是漫长、多变且通常无法观察到的。因此,管理者很可能得出低产量是由于工人努力不足或纪律不够的结论,而不是流程本身的特点。”

我们在安全领域经常看到这种情况。安全团队说,违规事件的发生是由于用户错误,因为用户“愚蠢、缺乏安全意识、无视政策、忍不住点击链接”,而不是系统(超负荷、糟糕的流程等)的原因。而公司高管则将违规归咎于“糟糕的安全团队”,而不是系统性问题,如长期投资不足、技术债务、复杂性高和缺乏自动化。

“救火”循环催生英雄文化

安全团队陷于“救火”模式,只有相对少数人能够为自己争取到时间和空间来优先考虑专注于“更聪明工作”(而非“更努力工作”)的战略举措,这一事实导致了严重后果。以下是Nelson Repenning和John Sterman根据他们的经验所见:

“随着组织越来越依赖‘救火’和更努力工作来解决由流程能力低下引发的问题,他们会奖励和提拔那些通过英雄般的努力设法挽救陷入困境的项目或维持生产线运转的人。因此,大多数组织奖励最后一刻解决问题的行为,而不是首先预防此类危机的学习、培训和改进活动。正如一家汽车公司的工程师告诉我们的:‘没人会因为解决了从未发生过的问題而获得赞誉。’随着时间的推移,高级管理层将越来越多地由这些‘战斗英雄’组成,他们很可能培养并青睐其他像他们一样的‘能成事’的人。正如我们采访的一位项目负责人所描述的:‘我们的[公司]文化奖励英雄。坦率地说,我就是这样走到今天的。我在压力和困难的情况下交付了项目,随之而来的回报是你被视为一个能交付成果的人。这些就是晋升的机会。’”

阅读这段文字可以清楚地看到,尽管安全领域肯定不是人们难以争取到时间和空间去“更聪明工作”(而不仅仅是“更努力工作”)的唯一地方,但它无疑是这种现象的一个很好的例子。

一般来说,很少能看到安全团队在其组织中获得足够的权力来实施预防性控制并防止问题发生。预防意味着摩擦,所以不仅仅是“没人会因为解决了从未发生过的问題而获得赞誉”,而且也没人能够承担引入更多摩擦的代价。

陷于缺乏足够控制权、资源和支持的环境下,安全专业人员常常成为所谓“英雄文化”的牺牲品也就不足为奇了。老实说,很难责怪他们:毕竟,大多数安全人员都在努力利用他们获得的一点支持和资源尽力做到最好。如果你有兴趣了解更多关于英雄文化及其在安全领域的表现,我建议你阅读我和Kymberlee Price大约两年前发表的一篇文章,题为《网络安全中的英雄文化:起源、影响以及我们为何需要打破这个有毒循环》。(剧透警告——它在今天和两年前一样具有现实意义)。

总结这一切

Venture in Security 的一位读者 Michael A. Davis 曾在我另一篇文章下留言,他比我自己更能解释我在这里讨论的话题的后果。他说:

“如果这不是网络安全独有的,而是所有组织处理预防与应对的方式呢?我认为同样的动态出现在制造业(特别是质量控制)、医疗保健(预防医学)和建筑/基础设施(维护与维修循环)中。 这种模式似乎是:

  1. 组织陷入‘救火’模式,因为那是可见且受奖励的。
  2. 先行者试图向淹没在今天危机和问题中的团队推销,他们应该‘解决明天的问题’。
  3. 只有违规事件或监管命令等外部力量才能产生足够的痛苦来打破这个循环。
  4. 当市场从‘理论风险’转向‘迫切需求’时,跟随者才到来。”

这是一个相当好的总结。我只想补充一点,虽然从历史上看,预防性安全产品比那些更侧重于检测和响应(也就是“救火”)的产品更难获得市场认可,但近年来,预防开始获得相当大的关注。不仅我们看到了新一代公司的出现,包括像BforeAI、Aryon和R6 Security这样的初创公司,甚至Gartner似乎也在提出“先发制人网络安全”的理念。时间将告诉我们是否能够克服传统上与预防性和先发制人安全措施相关的组织惰性,但我认为,当许多聪明而固执的人尝试做某事时,通常是一个好兆头。

这不仅仅是关于为预防性安全获得一个新的Gartner类别。我认为更重要的是让安全团队有权力优先考虑更聪明地工作,走在问题前面,规划未来,并为每个我知道的安全团队都希望找到时间和资源去追求的大规模举措腾出时间。这关乎防护和预防问题发生的心态,远不止是特定的产品或产品类别。

展望未来

自Nelson Repenning和John Sterman发表他们的文章,解释“没人会因为解决了从未发生过的问題而获得赞誉”以来,已经过去了20多年。他们谈论的是企业通常如何进行决策。虽然这些都与安全无关,但我们的行业只是放大了商业其他领域可见的问题。

在未来几年,我希望更多的安全领导者能够获得信任和政治资本,在他们的组织中倡导优先考虑“更聪明地工作”。我看到许多CISO试图做正确的事,但遇到内部障碍,以至于我别无选择,只能乐观地认为事情会变得更好。我也希望我们将看到更多的初创公司提出能够重塑旧问题并找到现代解决方案的想法,而不仅仅是自动化和编纂我们一直以来的老旧、低效的工作方式。这也是Tomer Weingarten在我们最近的《Inside the Network》播客中描述的“渐进式思维”问题。作为一个行业,我们都可以做得更好,并且我毫不怀疑我们会做到。

如果你喜欢我的博客,请订阅并与你的朋友分享。我在业余时间做这件事,所以看到读者群增长有助于我保持动力并写更多内容。除了我的文章,我不会发送任何东西,也不会把你的数据卖给任何人,因为我有更好的事情要做。

如果你是建设者——现任或有抱负的初创公司创始人、安全从业者、营销或销售负责人、产品经理、投资者、软件开发人员、行业分析师,或其他正在构建网络安全未来的人,请查看我的畅销书《Cyber for Builders》。

如果你的公司有兴趣赞助 Venture in Security,请查看赞助页面

最后,请收听Inside the Network播客,我们将为你带来构建网络安全未来的最佳创始人、运营者和投资者。

订阅

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计