DSPM悖论:可控感知与不可控数据格局的技术剖析

本文深入探讨DSPM工具在现代数据安全中的局限性,分析其在AI工作负载下的盲点,并提出通过数据脱敏技术实现真正的数据保护,而非仅仅依赖可视化和警报系统。

DSPM悖论:感知控制与不可控设置

数据始终在流动。数据在多个互连系统间流动,创造了扩大的攻击面,涵盖Slack消息、基于浏览器的AI工具、缓存文件夹和分布式云工作负载。

安全团队长期试图跟上步伐。虽然传统工具(如防火墙、SIEM和DLP)已演进以应对动态数据流,但在数据持续跨平台移动的环境中仍面临挑战。这些工具查看网络、监控异常登录、检查进出系统的文件。然而,核心挑战依然存在:有效监控和保护分布在众多接触点的数据。

传统安全方法与现代数据分发模式之间的差距催生了专门的数据安全解决方案需求。DSPM(数据安全态势管理)承诺识别敏感数据、揭示谁有权访问,并告知与该访问相关的风险。它映射数据态势。简言之,它提供可见性。

理论上,这听起来不错。

DSPM是为解决实际问题而演进的。安全团队失去了可见性,无法看到已知系统外部的数据。DSPM解决了这个问题,或至少尝试解决。

大多数DSPM工具能够:

  • 发现结构化和非结构化格式的数据
  • 使用模型和规则对数据进行分类
  • 映射谁有权访问及如何访问
  • 基于数据类型和访问组合进行风险评分
  • 创建符合合规框架的报告

这很有用,解决了谜题的一部分。但这也是幻觉,因为DSPM工具给人以控制的印象,实际提供的只是快照,而快照仅对静止的事物有用。

DSPM不进行修复,这很重要

DSPM工具在销售和理解方式上存在关键弱点。它们显示问题,但不解决问题。

它们高亮暴露的S3存储桶、标记存储在错误位置的敏感文件、显示不应存在的访问权限。它们不删除该访问、不关闭该存储桶、不加密该文件。这些工作留给团队完成,这意味着:

  • 工程师收到警报
  • 创建工单
  • 队列堆积
  • 问题数天或数周未解决

DSPM成为增加警报负担的另一个工具。这创造了危险的虚假进展感。团队看到风险,但除非他们具备自动化能力,否则这些风险仍然存在。

库存陷阱:DSPM是地图,而非防御

安全团队喜欢可见性,这感觉有成效。运行扫描、获取报告、标记一些红旗。但地图只有在保持新鲜时才有用。在云环境中,世界每分钟都在变化。

一名数据工程师可以创建测试存储桶并将生产数据复制到其中。五分钟内,它暴露;十分钟内,机器人已将其索引。实践中,企业在重新扫描数据存储方面面临重大挑战。鉴于要覆盖的数据存储数量庞大,库存更新不频繁,导致数据格局图迅速过时。到那时,为时已晚。

这就是库存陷阱。DSPM将世界视为列表,认为列出数据就能控制数据。

但这种方法:

  • 无法扩展
  • 依赖供应商集成以支持每种新数据类型
  • 当环境变化快于扫描间隔时失败

结果很简单。DSPM对审计有用,但并非为保护而构建。

全面覆盖的神话

DSPM叙述中最危险的假设之一是这些工具能够发现一切。这个假设根本不成立。

影子IT、流氓SaaS应用、基于浏览器的数据流和开发者桌面通常无法触及。即使配置DSPM工具监控已知平台,仍需要告诉它们查找什么以及如何查找。

某些数据类型本质上是不可见的。考虑:

  • 存储嵌入向量的向量数据库
  • 创建临时内存缓存的AI系统
  • 独立行动的代理AI工具

这些系统不产生可读文本文件,它们存储敏感内容的编码形式。DSPM工具无法分类它们无法理解的内容。简言之,DSPM在以下情况下效果最佳:

  • 数据存储在已知平台中
  • 持久性足够长以进行扫描
  • 格式可解释

但今天的数据是:

  • 临时的
  • 转换的
  • 由机器快速移动的

这使得盲点成为默认,而非例外。

客观视角:DSPM必要但有限

除了安全考虑,DSPM服务于关键的数据治理和法规合规功能。隐私法规要求组织了解收集的个人数据及其使用方式。

GDPR等框架下的数据主体权利要求全面了解数据存储及其内容。这种监管环境使得数据发现和分类至关重要,无论安全效益如何。

需要明确的是,DSPM工具并非无用,它们具有实际功能,但其承诺被夸大了。

本文不是重复DSPM如何拯救世界的营销故事。该叙述在供应商中流行,但对不堪重负、落后且资源不足的安全团队没有帮助。这是关于诚实。

DSPM解决了部分问题,它们帮助您看见,但不帮助您修复。它们不是保护,而是意识。

对于希望实际降低泄露风险的团队,这意味着将DSPM视为策略的一部分,而非策略或解决方案本身。

当监视不足时——为什么数据必须脱敏

数据可见性有帮助,但了解问题并不解决问题。这就是大多数DSPM甚至更新的DDR解决方案不足的地方。它们显示风险,显示问题发生的位置。但大多数时候,它们在坏事发生后告诉您。

这就是为什么本文第二部分探讨为什么仅监视不再足够。

它解释为什么警报为时已晚,检查AI驱动系统如何引入DSPM和DDR未设计处理的新风险,并以最关键转变结束:安全不应仅旨在阻止访问,还应致力于在数据释放时使数据本身不那么危险。

DDR(数据检测与响应)为解决实际差距而引入。如果DSPM提供地图,DDR本应添加运动跟踪。它告诉您何时有人访问敏感数据、频率如何以及来自何处。

DDR能力包括:

  • 检测异常下载行为
  • 在异常时间访问时警报
  • 跟踪谁接触了什么数据的完整谱系

这听起来强大,在许多方面确实如此。但像DSPM一样,它仍依赖一个关键弱点:警报在事后发生。

考虑真实示例:受损用户账户获得对大型财务数据库的访问权限。如果下载以单个大块发生,DDR可能检测到。但如果缓慢发生、跨时间发生呢?如果进行渗漏的AI驱动系统模仿正常用户行为呢?

检测变得更难。通常,当警报触发时,数据已经消失。

此外,DDR解决方案仍依赖:

  • 平台集成
  • 预定义策略
  • 明显异常的行为

但当数据流由旨在不断变化的系统驱动时会发生什么?或允许学习和演进的代理呢?

AI工作负载:新盲点

进入AI。

现代企业环境不仅运行代码,还运行学习系统。这些系统摄取、分析和处理大量敏感数据。它们不总是写入日志,临时缓存结果,将数据嵌入新格式。

示例包括:

  • 检索增强生成(RAG)系统将内部文档存储为向量嵌入
  • 总结医疗、财务或法律信息并短暂保存在内存中的大语言模型(LLM)
  • 在没有明确用户指令的情况下跨工具执行任务的代理AI

这些系统创造新风险:

  • 不可见副本:数据以无法监控的方式临时存储
  • 自主移动:AI代理可能在系统间传输数据而无集中控制
  • 编码泄漏:敏感信息可能通过摘要、嵌入甚至自动生成的电子邮件间接泄漏

DSPM和DDR工具未构建以理解这种流动性水平。它们无法检查看不见的内容,无法对不明显错误的内容发出警报。

并非所有泄漏触发警报

安全团队常说:“如果发生坏事,我们会收到警报。”然而,事实是许多泄漏不像是违规。

有时,初级开发人员运行报告并将其导出到CSV文件,然后通过个人电子邮件发送。这可能不会立即违反任何策略,没有警报触发,但损害是真实的。

其他时候,微调的AI模型被授予对HR数据的访问权限,它创建摘要,然后这些摘要以意外方式显示给用户。没有文件下载,没有存储桶暴露,但敏感数据离开了系统。

这些是无声失败的例子。没有警报,没有日志,没有明确红旗。这就是为什么仅依赖警报是危险策略。

数据脱敏

如果我们接受并非每个泄漏都可见,某些系统太快或太自主而无法实时控制,那么我们需要改变目标。

目标应该是:使数据对攻击者无意义,甚至对可能导致威胁的内部人员无意义。这就是脱敏的含义。

脱敏是移除或保护如果泄漏会造成损害的数据部分的过程。它不阻止数据移动,它使数据在不受控制移动时无用。

有两种主要技术:

加密将可读数据转为编码数据。没有解密密钥,数据看起来像乱码。即使攻击者获取数据,也无法使用。 令牌化用假值或引用令牌替换敏感数据。真实数据安全存储在其他地方。因此即使令牌泄漏,它们也没有意义。

两者都保护关键敏感数据,如:

  • 个人可识别信息(PII)
  • 健康数据(PHI)
  • 财务数据(PCI)
  • 法律文件
  • 内部IP

两者在违规之前、期间和之后都有效。

脱敏限制爆炸半径

将脱敏视为防火。它不阻止火灾,但控制火势并防止事物燃烧。

当发生违规且被盗数据脱敏时:

  • 隐私未受侵犯
  • 监管罚款减少或避免
  • 客户信任保持
  • 内部恐慌受控

更好的是,此方法不依赖警报或人工干预,它始终开启。因此脱敏不是等待警报,而是改变风险本质。

但性能如何?

常见担忧是加密和令牌化使系统变慢。过去可能如此,但现代方法:

  • 足够快以支持实时查询
  • 为云原生环境设计
  • 与基于角色的访问控制集成

智能工程使得保护敏感字段而不损害性能成为可能。例如:

  • 仅加密关键字段如SSN或账号
  • 在AI训练数据中对姓名、电子邮件和地址进行令牌化
  • 仅在需要时且仅对正确用户解密

这平衡速度和安全。

防止数据盗窃并非总是可能,但可以防止违规

脱敏防止事件升级为违规。它仍然是需要报告的事件,但不会导致数据暴露,因此避免违规的严重后果。

面对真相:数据盗窃会发生。承包商将文件复制到错误文件夹、系统故障暴露数据库、AI代理意外缓存敏感信息。您无法阻止每次盗窃,但可以控制接下来发生什么。

当可读数据被盗时,您面临监管罚款、法律战、客户诉讼和声誉崩溃。股价暴跌、客户逃离、高管辞职、企业受苦多年。

当加密/令牌化数据被盗时,您提交事件报告。无处罚、无恐慌、无灾难。

攻击者拥有无法读取的文件、无法使用的数字、无法利用的身份。相同的盗窃,仍然是数据盗窃事件,但零违规后果。

这就是为什么智能组织不追求完美预防,而是使数据对窃贼无价值。他们构建有弹性且能在事件中存活的系统。因此当数据走出门时,他们确保被盗数据无法伤害任何人。

默认加密和令牌化:说起来容易做起来难

现实是加密和令牌化复杂、耗时、昂贵且侵入性强。这种复杂性解释了为什么即使在违规发生后也很少实施。

数据脱敏不是合规步骤,而是需要大量前期投资和架构更改。该方法需要多年努力来重新设计和重新部署应用程序及服务以纳入脱敏的SDK和API,这可能造成中断。对许多组织而言,这项工作成本高昂、开发密集且复杂。

此外,构建它需要文化、心态、哲学,超越合规驱动组织和反应性方法。

脆弱问题的沉重堆栈

退后一步,这是大多数企业团队被告知需要的:

企业安全通常包括众多组件,如DSPM、身份访问管理、动态掩码、DLP、RBAC、JIT、秘密管理、API安全、非人类或机器身份管理、网络分段等。模式清晰:大量精力投入构建围绕数据存储的保护墙作为补偿控制——但数据本身仍然未受保护。

整合所有这些需要时间、金钱和工程周期。即使如此,系统仅与其最新扫描、警报敏锐度和响应速度一样强大。

您无法设置每个护栏或补偿控制。即使可以,您不能期望每个都完美运行。那是涅槃状态——在实际生活中不会发生。因此,期望这些失败或不足,并且您已经有一个攻击者进入您的网络。

保护数据,不仅仅是系统

更聪明的方法是从伤害发生处开始。不在边界,不在仪表板。

伤害发生在敏感字段以可读形式泄漏时,伤害发生在真实姓名、数字、身份和秘密到达错误手中时。

聚焦那里。

在字段级别脱敏。加密重要的内容,令牌化可能的内容。并自动化整个过程。不要依赖手动和耗时的努力,因为如果不自动化,它就是坏的。这样,即使DSPM错过它,即使DDR警报延迟,即使SOAR不堪重负。

数据本身对攻击者无用。

最终思考:聚焦数据保护而非完美可见性

安全团队面临不可能的任务:监控扩展数字环境中的每个数据流。无论检测工具变得多复杂,攻击者将找到利用盲点的新方法。

基本问题不是可见性——是漏洞。当敏感数据以可读形式存在时,任何成功攻击都成为危机。

创新组织将焦点从完美监控转向数据保护。通过在源头加密和令牌化敏感信息,他们将潜在灾难转化为可管理事件。

目标不是看到一切,而是确保被盗内容无法伤害您。

特别感谢Privaclave创始人和数据安全资深人士Sid Dutta,他对行业最大盲点的坦率看法启发了这篇深度探讨。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计