私有云计算只是冰山一角:为何真正的AI隐私需要数据治理与以数据为中心的安全
目录
- 私有云计算的承诺:保护查询
- 防护的漏洞:为何机密计算不是银弹
- Virtru方案:机密AI的完整解决方案
- 付诸实践:面向真实世界AI工作流的以数据为中心安全
- 展望未来:保护AI训练工作流
- 自上而下完成AI隐私拼图
- 常见问题
正文
所有人都在竞相采用人工智能,但一个关键的悖论阻碍了其真正潜力的发挥:那些承诺变革性洞察的模型,恰恰需要访问我们最敏感的数据。企业如何在不暴露客户个人信息、知识产权或受监管财务信息的情况下,利用强大的人工智能?这是阻碍创新的最大问题,而业界最初的答案是人们对机密计算的兴趣激增。
随着最近围绕苹果的私有云计算、谷歌的私有AI计算以及新的开源项目OpenPCC的热议,信息很明确:人工智能的未来必须是私密的。这些技术是向前迈出的重要一步,但它们只是更大拼图中的一小块。它们保护了交易,但没有保护数据。
私有云计算的承诺:保护查询
从本质上讲,用于人工智能的私有云计算就像一个用户和模型之间的安全、私密隧道。PCC和OpenPCC等技术旨在出色地完成几件事:
- 它们在传输过程中加密用户的提示和模型的输出。
- 它们使用基于硬件的机密计算环境来创建一个隔离的计算环境,理论上对云提供商和任何其他未经授权的方是隐藏的。
- 它们旨在使交易“无状态”,意味着数据仅用于查询,然后消失,永远不会被存储或用于未来的训练。
这对于保护单个AI查询的隐私来说是一次必要且重要的演进。它确保了你提出的敏感问题和你收到的答案在特定的交互过程中免受窥探。但是,在这些几毫秒的推理过程之前和之后,数据的旅程又如何呢?
防护的漏洞:为何机密计算不是银弹
只关注推理交易会留下不容忽视的关键安全漏洞。
- 它关注的是流量,而非数据本身。 机密计算在数据使用时保护查询,但你的数据并不存在于查询中。它存在于数据湖、数据库和对象存储中。它在你的企业中被创建、复制和移动。如果数据源本身是一个漏水的桶,保护推理“管道”是徒劳的。这是对话中最常被遗漏的部分。
- 硬件并非无懈可击。 这些系统将巨大的信任寄托在硬件信任根上。然而,正如安全研究人员所证明的那样,硬件可能存在漏洞。像TPM-Fail这样的旁路攻击已经证明,提取用于保护安全飞地的加密密钥是可能的,这完全破坏了承诺的安全性。仅仅依赖硬件保护是一个冒险的赌注。
- 它用于推理,而非训练。 最后,当今的私有云计算解决方案几乎完全是为运行查询而设计的。它们没有解决在敏感公司数据集上训练或微调模型所带来的更大数据暴露风险,这通常意味着对信息的大规模、持久访问。
Virtru方案:机密AI的完整解决方案
在Virtru,我们相信一个全面的人工智能隐私策略需要在各个层面解决安全问题,从芯片到数据本身。
第一层:在硬件中建立信任基础 在信任“安全隧道”之前,你必须能够以密码学方式证明两端的工作负载和硬件是真实且未被篡改的。Virtru正深入一线,构建基础性的“管道”,使这种验证变得无缝和可扩展。我们的工程团队正在解决用于GPU加速AI的硬件证明工作负载身份这一复杂挑战。我们正在创建基础设施,用于验证安全硬件飞地内工作负载的完整性,并使其与现代、企业级的服务网格架构兼容,这是标准工具无法解决的问题。这项工作超越了简单地信任硬件,转向主动验证硬件。
第二层:随时随地保护数据 可信的计算环境是必要的,但还不够。最终目标是保护数据。Virtru的理念是,安全性必须嵌入数据本身,无论数据移动到哪里,都能提供持久的保护和管控。
这是通过两个核心原则实现的:
- 可信数据格式(TDF): 每个数据对象,无论是文件、数据库条目还是电子邮件,都被包装在自己的安全信封中,访问策略直接附加其上。保护不再依赖于位置或环境。
- 基于属性的访问控制(ABAC): 访问不是简单的“是/否”。它是一个动态的决策,在请求时刻根据用户的属性、数据的属性以及访问数据的环境做出。这就是数据所有权的体现,确保数据所有者保留控制权,并能执行谁可以访问他们的数据、出于什么目的以及多长时间,无论数据在何处。
付诸实践:面向真实世界AI工作流的以数据为中心安全
通过将可信计算的基础与以数据为中心的安全模型相结合,Virtru正在实现新一代强大的人工智能用例,同时不牺牲隐私。我们即将推出的功能将使您能够:
示例1:在AI触及之前保护数据湖 在AI可以查询您的数据之前,这些静态数据必须得到保护。借助Virtru数据安全平台,组织将能够管理并保护其现有数据湖中的数据。使用我们基于ABAC的强制策略,您可以确保AI代理只能发现并读取其被明确授权访问的文件,防止大规模数据暴露。
示例2:保护隐私的RAG - AI的圣杯 检索增强生成是一种强大的AI模式,但它通常需要模型访问大量敏感文档。借助Virtru数据安全平台,您将能够构建一个端到端保护隐私的RAG应用程序。我们的平台将源文档转换为受保护的向量嵌入,可以在不泄露内容的情况下进行搜索。当AI检索最相关的文档片段来为其答案提供信息时,Virtru确保模型仅接收其和用户被授权查看的特定数据,并且仅在需要的时间内查看。AI获得了有效所需的上下文,而无需担心因“越狱”导致错误数据被请求的风险。
展望未来:保护AI训练工作流
虽然我们目前的重点在于推理和RAG用例,但我们认识到,在敏感公司数据集上训练和微调AI模型代表了更大的数据暴露挑战。Virtru目前可以为这些工作流提供一些以数据为中心的保护,但我们的路线图包括扩展对这些工作流的覆盖范围,确保对训练数据的持久访问保持相同的细粒度控制和可审计性。
自上而下完成AI隐私拼图
机密计算是AI隐私故事的重要部分,但这仅仅是开始。一个真正全面的策略不能将查询视为孤岛;它必须考虑整个数据生命周期。
它需要建立在可验证的、经过硬件证明的计算基础之上,这是Virtru正在积极努力应对的挑战。并且它需要一个持久的、以数据为中心的安全层,保护数据所在的每一个地方,并根据所有者定义的策略执行细粒度控制。
不仅要保护您的查询,更要保护您的数据。这就是如何在不牺牲隐私和控制的情况下释放AI全部潜力的方法。
准备好为您的AI工作流程探索以数据为中心的安全了吗?无论您是在AI摄取之前保护数据湖,还是构建保护隐私的RAG应用程序,我们的产品团队都可以帮助您评估正确的方法。加入机密AI早期访问计划,与Virtru专家建立联系。
常见问题
问:什么是私有云计算,它能保证我的AI数据安全吗? 答:苹果的PCC和谷歌的私有AI计算等私有云计算技术在用户和AI模型之间创建了一个安全的加密隧道。它们在传输过程中加密提示和输出,并使用基于硬件的机密计算来隔离计算。然而,PCC仅保护AI查询交易本身——而不是您在AI交互前后存在于数据库和数据湖中的底层数据。为了实现全面保护,您需要以数据为中心的安全,保护数据所在的每一个地方,而不仅仅是在AI查询期间。
问:机密计算和以数据为中心的安全有什么区别? 答:机密计算在AI交易期间保护数据——就像为您的查询提供了一个安全隧道。以数据为中心的安全保护数据本身,无论它去向何处。借助以数据为中心的安全,每个数据片段都被封装在自己的加密和访问控制中,并随之移动,因此无论在存储、处理期间还是在AI使用后,它都受到保护。可以这样想:机密计算保护管道,而以数据为中心的安全则保护流经管道的水。
问:在使用AI和大语言模型时,如何保护敏感数据? 答:在AI中保护敏感数据需要三层方法:(1) 通过硬件证明验证您的AI计算环境是安全的;(2) 直接将加密和访问策略嵌入到您的数据中,使其在数据湖、AI训练期间和查询时都受到保护;(3) 使用基于属性的访问控制(ABAC),以确保只有经过授权的用户和AI模型才能根据角色、安全级别和目的访问特定数据。这可以保护您的数据在整个AI生命周期中,而不仅仅是在单个查询期间。