关于提示注入安全操作的思考 | Daniel Miessler
提示注入字符串是零日漏洞还是Metasploit模块?
2025年11月24日 #ai #cybersecurity
我想就一篇博客文章提出回应,该文章认为提示注入字符串本质上是不应与攻击者共享的零日漏洞。
AI红队测试存在安全问题
在购买、投资或付费参加“AI红队测试”课程之前,请先阅读本文。
2025年11月24日
首先,我要说作者似乎真的担心会造成伤害,从这个角度我很欣赏这篇文章。我们需要更多而不是更少的人参与这场辩论,我感谢任何在竞技场上的人。
但我认为其基本主张并不正确,而且除了公共安全问题之外,似乎还有相互竞争的批评来源。
安全作秀?
我们先从这个看起来相当极端的观点开始。
“AI红队测试”不仅是安全作秀,而且实际上使系统更加脆弱。 如何做到? 因为底层系统架构的数学现实引入了博弈论约束。
首先,关于AI红队测试/安全领域可以有很多说法,但我认为“安全作秀”不是其中之一。
我们知道AI的采用速度比以往任何技术都要快。达到1亿用户所需时间:
- ChatGPT: 2个月
- TikTok: 9个月
- Instagram: 2.5年
正如瑞银分析师所说:“在我们关注互联网领域的20年里,我们不记得有哪个消费者互联网应用的增长速度如此之快。”麦肯锡报告称,78%的组织现在至少在一个业务功能中使用AI——高于2023年的55%。
这导致了数量惊人的新应用——企业应用、初创公司应用、业余爱好应用等等。
这些应用中有许多以AI前端系统,表现为一个或多个智能体,或者至少是处理输入流程中的某种AI。
显然,可能存在试图从这个领域中牟利的产品和服务,但任何合法问题领域都是如此。
这是一个紧迫且有时间限制的安全挑战。对我来说,AI渗透测试、红队测试以及整体安全服务的存在,绝不是安全作秀。
2. 这意味着什么?
然后,我们有以下内容来支持安全作秀的说法。
…因为底层系统架构的数学现实引入了博弈论约束。
这句话在我看来像是有人试图阻止我与他们辩论,因为他们比我聪明。
但他们请求宽容,那我们就宽容一些。
披露对任何系统成功的攻击(如提示)并不能使任何人更安全。事实上,它使情况变得更糟。理解这一点的关键在于两个重要事实:首先,这些攻击是无法修补的。没有安全修复方案。
即使某些问题无法完全修复,也不意味着防御者了解现实世界中攻击是如何进行的没有价值。
有缓解措施。有控制措施。即使它们不是万无一失的。
加固以防御一个提示,甚至5万个提示,很可能仍然会留下近乎无限数量的变体未修补。
是的,但没有任何安全是绝对的——无论哪个领域。问题在于,通过学习攻击如何进行并部署防御,我们是否切实降低了风险。
3. 这个论点听起来很熟悉
然后是这一点,它触及了我对这篇文章的主要问题。
知名的“AI红队”直接将提示库放在开放的互联网上。自豪地。供任何人使用。
这与人们反对发布Metasploit和类似工具时提出的论点相同。
基本上是:“如果我们谈论我们是如何受到攻击的,那只会帮助攻击者。”
这项研究不如一支专业的专职人类研究员团队。但它看起来相当广泛且无偏见。
我让我的AI系统去做了大量关于这个问题的研究,虽然结果好坏参半,但数据确实指向信息对防御者的帮助大于攻击者。
因此,在我看来,作者有责任描述为什么提示注入与其他类型的攻击技术共享特别不同。
正如我上面所说,我认为无法修补这一事实并不是答案。因为控制措施仍然可以缓解大量风险。
4. 攻击者已经知道
这里他们争辩说,他们正在利用已发布的提示中的知识来构建自己的系统。
我自2023年以来围绕这一点的论点是,随着AI模型和脚手架变得越好,进行这些攻击将变得越来越容易。 我们的论文表明,这些攻击永远不会停止出现。提示给你一个起点。数学给你一个计划。现在无限是可控的,时间站在你这边……你选择一个提示,然后迭代。就这样。……那个“被防御”的提示就成了让攻击者进入整个系统的钥匙。
可能正确,是的。
但攻击者并非完全迷失,不知道如何使用AI自己做这件事。
然后AI红队测试社区发布了提示,现在他们就能够进行攻击了。
任何想要发动这些攻击的人,尤其是大规模针对成熟防御者的人,早就知道如何创建一个引擎,以可自动化的方式组合攻击字符串,无论是组合方式还是迭代方式。
而且,制造越来越好的自动化AI攻击引擎正变得越来越容易。在这一点上,我和其他许多人可以一次提示就构建出这样的系统。我们并没有告诉大多数攻击者——尤其是优秀的攻击者——任何他们还不知道的东西。
5. 直截了当
现在语言的火药味变浓了。
如果你维护一个你在测试中使用的提示的公共代码库,你就是让你曾有过的每个客户都处于危险之中。
首先,公共提示和对客户有效的提示是有区别的。或者至少应该有区别。
我会将这些提示更多地归类为零日漏洞,如果不是零日漏洞,那就是客户数据。
我自己就在这个领域,我有很多朋友每个月都要做多次AI安全评估。他们都非常小心,确保将对实际客户有效的具体提示排除在他们公开发布的任何内容之外。
他们可能会分享技术、类别,或者如果是一种新类型的攻击,他们会谈论它,但他们不会将实际的客户攻击字符串复制粘贴到Github上。
6. 越界
最后:
如果你花钱请了AI红队来评估你的AI安全性,他们很可能是你最大的AI安全责任。
我想,鉴于上述背景,作者基本上是说,如果你有一家安全公司,你最初足够信任并请了进来,如果你让他们检查你的AI系统,他们会把他们使用的确切提示直接发布到网上。
这是一个非同寻常的说法,正如我上面所说,就我自己和我做这项工作的朋友而言,我知道这不是真的。
7. 其他因素介入对话
你,一个名人“AI红队测试员”,替我做了所有的工作。
在这里,我们确实看到他们试图传达的信号中有一些杂音。
或者至少这些信号足够混杂,以至于削弱了安全论点。
这开始让人感觉更像是对一个或多个特定个人及其“名人”地位的攻击,而不是一场安全讨论。
我的看法
如果我要以最大善意来理解所提出的论点(我再次感谢他们提出这一点)……
我会这样说:
提示注入字符串更像零日漏洞,而不是Metasploit模块,因为它们没有绝对的补丁。而且攻击者可以比防御者行动快得多。
我认为这是一个(近乎)不错的论点,因为安全社区已经同意,零日漏洞不应立即向公众发布,即使研究人员和/或防御者已经掌握了它们。
那么,反驳的负担就在于说明为什么提示注入字符串不是零日漏洞。
但我认为这个类比并不成立,原因如下:
- 我在这里给出粗略的数字。目前还没有关于这一点的既定数据。即使差距只有10%,一个有经验的攻击者也能开着卡车冲过去。
- 防御者了解这些攻击是如何进行的非常有价值,因为这将指导他们的防御。
- 虽然这些防御永远不会是100%,但即使是50-90%仍然是显著的风险降低。
- 我们非常接近任何攻击者都能一次提示就生成极其危险的自动化提示注入框架——或者至少有能力以编程方式组合攻击技术和字符串。
换句话说,这个论点依赖于1)提示注入字符串是零日漏洞,而我不认为他们提出了足够有力的案例来证明这一点,以及2)如果没有研究人员/红队测试员给他们指路,攻击者就一无所知。
我认为这两点都是错误的。
我还认为,如果不包括对从事AI红队测试工作的人员进行基于道德的攻击,这个论点会更有力。
“AI红队”这样做是因为他们不明白自己在做什么吗?还是因为他们根本不在乎?我不是读心者,所以不会假装知道。
他们这么说了,但接着就做了这件事……
作为一名安全专业人员,我认为在客户的安全操作之前考虑我的自尊心需求,是一个道德/伦理/随便你怎么称呼的问题。 如果你维护一个你在测试中使用的提示的公共代码库,你就是让你曾有过的每个客户都处于危险之中。 句号。
最后想法
总之,这是一个有趣的话题,涉及一些明显的强烈观点。
渴望听到其他人的想法,无论是哪种观点。
注释
- Cox, Disesdi Susanna. “AI红队测试存在安全问题。” Angles of Attack: The AI Security Intelligence Brief, 2025年11月24日。
- “ChatGPT创下用户增长最快记录。” 路透社,2023年2月2日。瑞银研究引用Similarweb数据。
- “AI现状。” 麦肯锡公司,2025年。对1000多名高管的年度全球调查。
- “攻击性安全工具:网络效应分析。” Substrate Research,2025年11月。由Kai(丹尼尔的AI系统)执行的研究,使用64个以上并行对抗分析的AI智能体(每个论点立场32个跨8个学科的专业智能体:首席工程师、架构师、渗透测试员和实习生),通过结构化红队测试方法分析每个立场的24个原子主张。