关于提示注入行动安全(OPSEC)的思考
提示注入字符串是零日漏洞还是Metasploit模块?
我想对一篇博客文章作出回应,该文章认为提示注入字符串本质上是零日漏洞,我们不应与攻击者分享。
AI红队测试存在OPSEC问题
首先我要说,作者似乎 genuinely 担心正在造成伤害,因此我从这个角度欣赏这篇文章。我们需要更多而非更少的人参与这场辩论,我感谢任何在竞技场中的人。
但我认为其基本主张并不正确,而且除了公共安全关切之外,似乎还存在相互竞争的批评来源。
安全作秀?
我们从这一点开始,这看起来相当极端。
“AI红队测试"不仅是安全作秀,它实际上使系统更加脆弱。
如何做到?
因为底层系统架构的数学现实引入了博弈论的约束。
首先,关于AI红队测试/安全领域,可以有很多说法,但我认为"安全作秀"不是其中之一。
我们知道AI的采用速度比以往任何技术都要快。达到1亿用户所需时间:
- ChatGPT: 2个月
- TikTok: 9个月
- Instagram: 2.5年
正如瑞银分析师所言:“在我们关注互联网领域的20年里,我们不记得有哪个消费级互联网应用的增长速度如此之快。“麦肯锡报告称,78%的组织现在至少在一个业务功能中使用AI,高于2023年的55%。
这导致了数量惊人的新应用——企业应用、初创公司应用、业余爱好应用以及介于其间的一切。
这些应用中有许多以单个或多个代理的形式,或以至少某种AI作为处理输入流程的一部分,将AI作为系统的前端。
显然可能存在试图从中谋取不当利益的产品和服务,但任何合法的问题都存在这种情况。
这是一个严峻且紧迫的安全挑战。在我看来,AI渗透测试、红队测试以及整体安全服务的存在,绝非安全作秀。
2. 这意味着什么?
接着我们有以下内容来支持安全作秀的说法。
……因为底层系统架构的数学现实引入了博弈论的约束。
这在我看来,像是有人试图阻止我与他们辩论,因为他们比我更聪明。
但他们要求宽容,所以我们给予宽容。
披露对任何系统成功的攻击——比如提示词——并不能使任何人更安全。事实上,它让情况变得相当糟糕。理解为什么的关键在于两个重要事实:首先,这些攻击是无法修补的。没有安全修复方法。
即使某些问题无法完全修复,也不意味着防御者了解攻击在现实世界中如何实施没有价值。 存在缓解措施。存在控制手段。即使它们不是万无一失的。
对一个提示词甚至5万个提示词进行加固,很可能留下几乎无限多的变体未修补。
是的,但没有安全是绝对的——无论哪个领域。问题在于,通过学习攻击是如何进行的并部署防御措施,我们是否切实降低了风险。
3. 这个论点听起来很熟悉
接着我们有以下部分,这触及了我对这篇文章的主要问题。
知名的"AI红队"将提示词库直接放在开放的互联网上。自豪地。供任何人使用。
这与人们反对发布Metasploit和类似工具时的论点相同。 基本上是:“如果我们谈论我们是如何受到攻击的,那只会帮助攻击者。”
这项研究不如专业的专职人类研究人员团队。但它似乎相当广泛且公正。
我让我的AI系统对此进行了大量研究,虽然结果好坏参半,但数据确实指向信息对防御者的帮助大于攻击者。
因此在我看来,作者有责任描述为什么提示注入在本质上不同于其他类型的攻击技术分享。 正如我上面所说,我认为"无法修补"这一点并非答案。因为控制措施仍然可以降低很多风险。
4. 攻击者已经知道了
这里他们争辩说,他们正在利用已发布的提示词中的知识,并构建自己的系统。
我围绕此点的论点自2023年以来一直是:随着AI模型和脚手架变得更好,进行这些攻击将变得越来越容易。 我们的论文表明,这些攻击将永远不会停止涌现。提示词给了你一个起点。数学给了你计划。现在无穷变得可管理了,时间站在你这边……你选择一个提示词,然后迭代。就是这样。……那个"已防御"的提示词就变成了让攻击者进入整个系统的钥匙。
潜在正确,是的。 但并非好像攻击者完全不知所措,不知道如何自己使用AI做到这一点。 然后AI红队测试社区发布了提示词,现在他们就能进行攻击了。 任何想要发起这些攻击的人,尤其是大规模针对成熟防御者的人,早就知道如何创建一个引擎,以可自动化的组合和/或迭代方式组合攻击字符串。 而且,制造越来越好的自动化AI攻击引擎正变得越来越容易。在这一点上,我和其他许多人可以一次性创建一个提示来构建这样的系统。我们并没有告诉大多数攻击者——尤其是优秀的攻击者——任何他们还不知道的事情。
5. 直言不讳
现在语言的火药味加重了。
如果你维护一个你用于测试的公共提示词库,你就危及了你曾有过的每一个客户。
首先,公共提示词与曾对客户起作用的提示词是有区别的。或者至少应该有区别。 我更倾向于将这些归入零日漏洞的类别,或者如果不是零日漏洞,则是客户数据。 我自己就在这个领域,我有很多朋友每月多次进行AI安全评估。他们都非常小心,不将实际对客户起作用的特定提示词放入他们公开发布的任何内容中。 他们可能会分享技术、类别,或者如果是一种新的攻击类别之类的会谈论它,但他们不会将实际的客户攻击字符串复制粘贴到Github上。
6. 越界
最后:
如果你付费让一个AI红队来评估你的AI安全性,他们很可能是你最大的AI安全责任。
我想鉴于上述背景,作者基本上是说,如果你有一个安全公司,你最初足够信任并聘请他们,如果你让他们检查你的AI系统,他们会把他们使用的确切提示词直接在线发布。 这是一个非同寻常的说法,正如我上面所说,就我自己和我做这项工作的朋友而言,我知道这不是真的。
7. 其他因素介入对话
你,一个名人"AI红队测试员”,为我完成了所有工作。
在这里,我们确实看到他们试图传递的信号中出现了一些杂音。 或者至少信号混合得足以削弱安全论点。 这开始感觉更像是对一个或多个特定个体及其"名人"地位的攻击,而不是安全讨论。
我的看法
如果我想要钢铁般地理解所提出的论点,我再次感谢他们提出来…… 我会说类似这样的话: 提示注入字符串更像零日漏洞,而不是Metasploit模块,因为它们没有绝对的补丁。而且攻击者可以比防御者行动得快得多。
我认为这是一个(近乎)合理的论点,因为安全社区已经同意,即使研究人员和/或防御者掌握了零日漏洞,也不应立即向公众发布。 因此,反驳论点的责任就在于说明为什么提示注入字符串不是零日漏洞。 但我认为这个类比不成立,原因有几个关键点:
- 我在这里给出粗略数字。这方面还没有既定的数据。即使差距只有10%,一个有技能的攻击者也能用卡车穿过去。
- 防御者了解这些攻击是如何实施的非常有价值,因为这将指导他们的防御
- 虽然这些防御永远不会是100%,但即使是50-90%仍然是显著的风险降低
- 我们非常接近任何攻击者都能一次性生成极其危险的自动化提示注入框架——或者至少能够以编程方式组合攻击技术和字符串
换句话说,这个论点取决于 1) 提示注入字符串是零日漏洞,而我认为他们没有提供足够有力的案例来证明这一点,以及 2) 攻击者在没有研究人员/红队测试员指明方向的情况下处于黑暗中。 我认为这两点都是错误的。
我还认为,如果论点中没有包含对从事这项AI红队测试工作的人进行基于道德的攻击,说服力会更强。
“AI红队测试员"这样做是因为他们不明白自己在做什么?还是因为他们根本不在乎?我不是读心者,所以我不会假装知道。
他们那样说了,但接着却做了那件事……
作为一名安全专业人士,我认为在满足自我验证需求之前,将客户的OPSEC置于首位是一个道德/伦理/随便你怎么称呼的问题。 如果你维护一个你用于测试的公共提示词库,你就危及了你曾有过的每一个客户。 到此为止。
最后想法
总之,这是一个有趣的话题,显然涉及一些强烈的观点。 无论哪种方式,都渴望听到其他人的想法。
注
- Cox, Disesdi Susanna. “AI Red Teaming Has An OPSEC Problem.” Angles of Attack: The AI Security Intelligence Brief, November 24, 2025.
- “ChatGPT sets record for fastest-growing user base.” Reuters, February 2, 2023. UBS study citing Similarweb data.
- “The State of AI.” McKinsey & Company, 2025. Annual global survey of 1,000+ executives.
- “Offensive Security Tools: Net Effects Analysis.” Substrate Research, November 2025. Research performed by Kai (Daniel’s AI system) using 64+ AI agents in parallel adversarial analysis (32 specialized agents per argument position across 8 disciplines: Principal Engineers, Architects, Pentesters, and Interns), analyzing 24 atomic claims per position through structured red-teaming methodology.