安全产品效能评估:威胁情报的误报与漏报挑战

本文深入探讨安全产品效能评估的核心挑战,重点分析威胁情报在误报与漏报之间的平衡难题,并详细介绍了四种主流评估方法的优缺点及其实际应用中的局限性。

安全产品效能

我之前曾写过关于安全产品的文章,提出了一个框架:安全产品通过结合传感器、节流阀和威胁情报来提供威胁防护。

作为产品工程师,我大部分时间都在思考如何改进传感器和节流阀以增强防护能力,但只有当威胁情报能够有效识别传感器数据并指示节流阀阻止危险行为时,这些组件才能发挥价值。威胁情报团队的一个常见目标是衡量其情报质量,因为了解当前质量对改进至关重要。

效能是衡量漏报(漏掉多少威胁)和误报(错误阻止多少无害文件或行为)的指标。任何安全产品都可以轻松实现0%的漏报率(通过阻止所有内容)或0%的误报率(不阻止任何内容)。威胁情报的挑战在于同时最小化漏报和误报。

不幸的是,如果你仔细思考一下,衡量效能的最大问题就会跃入脑海:这几乎是不可能的。

为什么?

想想看:这就像让一个孩子参加数学考试,然后立即让他回去给自己的试卷评分,而不先给他答案键或教他更多数学知识。当他写下答案时,他已经尽力提供了他认为正确的答案。如果你立即再次问他,情况没有任何变化——他并没有比之前获得更多信息,所以他仍然认为所有答案都是正确的。

而真实情况实际上比这个类比要困难得多——算术问题不会试图隐藏答案(伪装),而且它们的答案随时间保持不变,而许多类型的威胁只在短暂的时间内"活跃"(例如,一个被入侵的域名在清理之前一直提供网络钓鱼攻击)。

威胁识别没有答案键,那么我们该怎么办?嗯,有一些明显的方法可以评估威胁情报的漏报:

群体智慧——通过所有可用的威胁情报产品(例如VirusTotal)评估实体,并以此与社区共识进行基准测试。 后期回顾——通常威胁不会立即被检测到,而是在生态系统中更广泛暴露后才被发现。如果我们保留评估过的工件副本,并在几天或几周后重新评估,我们可能会更好地了解漏报。 抽样——由专家人工评估员费力评估一小部分样本,例如引爆文件、反汇编代码并审核每一行以得出准确结论。 语料库分析——将一组已知恶意文件输入引擎,查看它检测到多少。

这些策略本身都不完美:

  • “群体智慧"仅适用于竞争对手已知的威胁
  • “后期回顾"仅在威胁曾被任何人识别且保持活跃时有效
  • 抽样极其昂贵,且在威胁不活跃时失败(例如命令与控制通道不再存在)
  • 语料库分析仅评估"已知恶意"文件,且通常包含随时间推移已变得无害的文件(例如尝试利用几十年前已修补的软件漏洞)

即使你选择了某种策略或策略组合进行评估,工作仍未完成。你是按唯一工件(例如错误阻止或允许的文件数量)还是按单个遭遇(错误结果发生的次数)计算误报/漏报?

错误阻止一千个唯一文件各一次,通常比对单个文件错误阻止一百万次对生态系统的影响小。

这很重要,因为基础率:绝大多数文件(和行为)是非恶意的,而恶意文件和行为很少见。基础率意味着1%的漏报率对安全软件来说相当不错,而1%的误报率将是灾难性的,无法部署。

最后,重要的是要认识到误报和漏报在影响方面有所不同。例如:

  • 漏报可能允许攻击者接管设备,永久丢失它。
  • 误报可能阻止用户完成关键任务,使他们的设备无法使用。

客户购买安全软件时期望它能防止坏事发生;阻止合法文件或行动本身就是"一件坏事”。如果威胁情报的误报率很高,用户将失去对保护的信任,并禁用安全功能或覆盖阻止。当灭火器定期着火并烧毁部署它们的建筑物时,很难继续销售它们。

  • Eric
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计