从漏洞到绕过:AI安全防护中的漏洞披露实践

本文探讨如何将传统网络安全漏洞披露实践应用于AI系统防护,分析防护绕过漏洞披露计划(SBDP)和赏金计划(SBBP)的实施要点,包括明确范围、报告可复现性、激励机制等关键因素,旨在提升AI系统的安全防护能力。

从漏洞到绕过:为AI防护调整漏洞披露方案

随着AI系统变得更加强大,滥用风险也随之增加。从当前因防护不足导致的实际危害,到恶意行为者带来的长期潜在风险,利害关系重大。本篇博客探讨传统网络安全实践如何帮助减轻这些风险,特别关注公开披露计划。

什么是防护绕过?

防护绕过是开发者用来防止AI系统产生违反政策输出或行动的技术。这些包括模型级变更(如拒绝训练或反学习)和外部工具(如辅助分类器)。但这些防护措施并非万无一失,可能通过越狱、代理劫持和间接提示注入等技术被绕过。

网络安全实践能否提供帮助?

NCSC和AI安全研究所(AISI)一直在考虑传统网络管理工具如何帮助减轻防护绕过的可能性,最初重点关注NCSC漏洞披露工具包中描述的漏洞管理和披露方法。关键的可转移领域包括最小化内置弱点的安全开发生命周期,以及有效的分类和修复规划。

我们认为应用这些基础措施很可能有助于减轻防护绕过,就像它们对标准软件漏洞的作用一样。

利用披露计划提升AI安全性

前沿AI社区日益关注的一个活动领域是众包防护绕过的详细信息,如最近推出的OpenAI和Anthropic漏洞赏金计划所示。防护绕过赏金计划(SBBP)和防护绕过披露计划(SBDP)类似于网络安全中的漏洞赏金和漏洞披露计划。它们通过鼓励研究社区发现和报告成功的绕过来众包系统的安全测试。

在考虑公开计划之前,AI系统开发者必须首先实施稳健成熟的安全管理和负责任披露方法。没有这些,报告的绕过可能无法得到妥善处理,从而削弱活动的目的。如果参与者不信任披露过程,严重的漏洞可能不会被报告。

公开披露计划:潜在益处与其他考量

SBBP和SBDP可以通过两种主要方式有益于AI系统的安全:

通过衡量绕过防护的难度 - 如果运行良好的计划吸引了熟练参与者却找不到任何成功的绕过,这是个好迹象。这表明系统更难被滥用,这有助于为内部治理和风险评估提供信息。

通过在部署后保持防护强度 - AI系统开发者目前无法提前识别所有潜在的绕过技术。即使在部署后,这些计划也有助于发现新的弱点,让开发者能够修复它们,使系统长期保持安全。

公开披露计划还有其他潜在益处,例如:

  • 通过激励和推广道德行为鼓励负责任披露文化
  • 提高安全社区的品牌认知度和参与度
  • 为研究人员提供实践和展示现实世界安全技能的机会

其他需要考虑的因素:

  • 公司不一定需要提供经济激励来获得许多益处
  • 公开计划的评估广度和多样性应补充而非替代更深层次的安全评估
  • 分类和管理报告会产生显著开销
  • 除非开发者具备良好的基础安全实践,否则不会有效

优秀披露计划的特征

基于AISI在Gray Swan Agent红队挑战赛中的合作和评判经验,以及评估前沿AI防护措施的经验,加上NCSC的内部研究,我们制定了一些建议的最佳实践原则:

明确界定范围 - 明确的范围帮助参与者准确理解成功标准。例如,“找到导致系统输出有害内容的输入"这样模糊的范围难以评估。相反,包含详细模型规格(如"永不生成性内容"指令)的范围更清晰易懂。

启动时间和持续时间支持目标 - 开发者应在进行内部审查并修复发现的弱点后启动计划,避免因琐碎弱点的低影响报告而淹没开发者。如果风险可能在产品发布时或之后出现,SBBP或SBDP应与产品同时(如不是提前)启动。

报告易于跟踪和复现 - 为了有效从报告中学习,开发者必须能够轻松跟踪和复现用户的发现。实现方法包括:

  • 为所有消息记录唯一ID
  • 提供简单工具让用户复制和分享完整对话上下文
  • 给予受信任用户访问具有更详细跟踪功能的系统内部版本

请注意:我们欢迎SBDP和SBBP等计划来鼓励和支持AI模型的网络安全分析。但请注意,SBDP和SBBP的存在并不自动意味着模型或系统安全。我们鼓励对此及其他问题进行进一步研究。

开放问题与进一步研究

关于公开计划在AI安全中的作用,以及如何使它们(和其他受标准网络实践启发的工具)最有效,我们仍有很多不了解的地方。

我们假设数十年网络安全的经验教训适用于AI系统,但可能也存在重要差异。例如:

  • 许多防护攻击更像检测绕过而非软件漏洞
  • 参与AI相关研究的人员类型可能也不同

NCSC和AISI鼓励跨学科研究人员探索这些及其他开放问题,包括:

一旦发现防护弱点,如何减轻? - 标准软件漏洞通常可以"修补”。针对特定攻击进行训练可能使模型对该攻击具有鲁棒性,但重新训练(或类似技术)是否能在更普遍意义上提高鲁棒性尚不清楚。

如何处理跨模型和计划的攻击? - 个体防护绕过方法通常对多个AI系统成功,不仅限于一家公司的系统。哪些跨部门协作和共享框架或方法可以帮助安全有效地传播发现的漏洞?

如何判断防护绕过弱点的严重性? - 与网络安全不同,判断防护攻击严重性的既定原则尚不存在。Anthropic提出了通过以下方式判断越狱严重性: (i) 与无防护模型相比,模型响应的能力程度 (ii) 跨提示类型的泛化能力

这是一个有前景的框架,但需要进一步完善和探索替代方案。

关于公开计划的具体问题:

  • SBBP和SBDP应该多公开和开放?
  • 什么激励措施最适合防护背景?
  • 漏洞披露的经济学仍然是一个活跃的社会技术研究领域

您如何提供帮助

公开披露计划可能有助于跟踪和减轻强大AI系统在部署期间的风险,是将网络安全最佳实践转移到AI防护的一个例子。但关于现有网络方法如何应用于AI系统,还有更多需要学习的地方。在揭示AI和网络社区还能从彼此学到什么方面,还有更多工作要做。

我们欢迎来自AI和网络安全学科的进一步研究,以识别和利用这些机会,帮助我们实现我们都希望看到的安全可靠的AI成果。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计