生成式AI漏洞挖掘实战指南

0x00 为什么生成式AI对漏洞赏金很重要

生成式AI在产品中的部署速度远超安全团队的调整能力，漏洞赏金猎人已经开始发现相关漏洞。银行应用部署"助手"，支持台推出聊天机器人，SaaS平台添加能够查询敏感数据的副驾驶。每一个这样的部署都扩大了攻击面。

对漏洞赏金猎人来说，相关性是直接的。生成式AI功能通常将大型语言模型与自定义提示、业务逻辑和数据集成相结合。该技术栈可能以传统Web应用不会出现的方式失效。如果你能影响模型披露其隐藏指令、泄露私有数据或忽略授权检查，你就证明了真实的安全问题。

赏金计划开始认识到这一点。有些将提示注入和数据泄漏列为有效发现；其他则将生成式AI纳入其通用应用逻辑范围。无论哪种方式，信息都很明确：学习如何测试这些系统的猎人今天就能找到有影响力的漏洞。

如果你想练习提示注入，请查看Lakera主办的Gandalf CTF。

0x01 野生环境中的生成式AI

这些机会出现在哪里？几乎在任何公司想要展示"AI驱动"功能的地方。

大多数这些系统依赖第三方模型提供商，如OpenAI、Anthropic、Google或AWS。风险通常来自企业集成这些模型的方式：他们构建的提示、实施的防护措施以及输入到上下文窗口中的数据。

从黑客的角度来看，该集成层就是攻击面。模型可能很健壮，但围绕它的胶水代码通常匆忙编写、未经测试，并直接暴露给最终用户。测试这些接缝处才能找到有意义的漏洞。

侧边栏：当前赏金计划中生成式AI的范围

如果你想知道"这真的能赚钱吗？“答案是肯定的——但前提是你知道在哪里寻找。越来越多的计划在其范围内明确标出生成式AI端点。你会看到这样的表述：

“针对我们聊天机器人的提示注入和数据泄露在范围内”
“模型泄漏内部提示或敏感数据将获得奖励”
“AI辅助功能（例如支持副驾驶）有资格提交漏洞”

几种模式很突出。较新的计划倾向于AI安全以吸引猎人；成熟计划将生成式AI视为应用逻辑的扩展，并奖励已证明的影响而非新颖性；私人邀请有时在范围内包含生成式AI，即使公开页面没有。要点是：不要假设"这只是个聊天机器人"就意味着超出范围。仔细阅读政策，如果你能将发现与业务风险（数据泄露、权限提升、合规影响）联系起来，通常都是合理的。

0x02 漏洞赏金计划中的生成式AI攻击面

在赏金计划中测试时，有几个类别反复出现：

提示注入

最易识别的攻击面。通过制作特定输入，你可以影响模型忽略其指令、揭示隐藏提示或执行意外操作。间接注入（模型读取不受信任的内容，如电子邮件、文档、URL）通常比直接"越狱"导致更高影响的泄漏。

敏感数据暴露

模型经常被输入专有文档、客户信息或系统提示。弱过滤意味着用户查询可以拉取这些数据。常见的发现是检索隐藏在上下文中的业务逻辑或凭据。

授权绕过

当AI层调解对现有系统的访问时，防护措施可能比传统授权检查更弱。例如，向模型请求受限报告可能会绕过底层系统强制执行的API授权。

第三方集成

检索增强生成（RAG）系统、插件和外部API扩展了攻击面。许多都是匆忙添加的，很少考虑输入清理或输出处理。这些集成通常成为升级的入口点。

这些模式对于有Web测试经验的人来说很熟悉：信任边界变得模糊，验证不一致，不受信任的数据流比预期更深。新的是界面；你发送的是精心制作的指令而不是SQL或shell有效载荷，但底层安全原则保持不变。

0x03 用于生成式AI安全的MITRE ATLAS

MITRE ATLAS是一个针对AI系统使用的对抗性战术和技术的知识库。它基于MITRE ATT&CK框架，提供了理解和分析AI安全威胁的结构化方法。ATLAS可以帮助漏洞赏金猎人：

识别潜在攻击向量：ATLAS提供了攻击者可用于危害LLM的全面技术列表
理解攻击影响：ATLAS描述了成功攻击的潜在后果，如数据泄露、拒绝服务或声誉损害
制定有效测试策略：ATLAS可以帮助设计有针对性的测试来识别LLM应用中的漏洞

侧边栏：快速入门——什么算作生成式AI？

术语生成式AI涵盖广泛的系统，但并非范围内的每个"AI"功能都是生成式的。对于漏洞赏金，通常意味着：

大型语言模型（LLM）：聊天界面、副驾驶、摘要器或问答系统
多模态模型：图像到文本、文本到图像或混合系统（考虑文档分析器或与PDF聊天功能）
RAG架构：检索增强生成管道，将专有数据输入模型提示

并非每个ML端点都是生成式AI。欺诈检测分类器或推荐引擎通常超出范围。但如果该功能接受自然语言输入并产生灵活、人类可读的输出，那么它就是生成式AI测试的候选者。

0x04 将生成式AI发现转化为有效的漏洞赏金提交

发现生成式AI的怪癖很容易。将其转化为有效的赏金提交需要更多纪律。计划关心的是影响，而不是新颖性。

用业务术语描述问题。与其说"模型忽略了其系统提示”，不如展示它启用了什么：敏感数据的披露、控制的绕过或意外操作的执行。

可重现性很重要。AI系统是概率性的，但赏金审查者期望一致的结果。记录确切的提示、仍然有效的变体以及确认结果的截图/日志。

保持在范围内。许多政策排除通用越狱，除非它们导致数据泄漏或权限提升。

最好的生成式AI提交类似于强大的Web应用报告：清晰的步骤、证明的风险以及与业务价值（数据机密性、授权、品牌信任）的直接联系。计划仍在校准奖励结构，但早期信号是一致的，实际影响会得到奖励，没有风险的聪明技巧则不会。

0x05 漏洞赏金计划中测试生成式AI的工具

测试生成式AI系统不需要奇特的设置，但一些工具使过程更顺畅：

Burp Suite

仍然是主力。代理流量以查看提示的结构、传递给模型的数据以及响应的处理方式。Param Miner等扩展可以帮助识别影响上下文的隐藏参数。

ffuf和其他模糊测试器

用于探测生成式AI支持的API中未记录的端点或参数。模糊测试可以发现通过查询字符串、标头或文件上传注入提示的方法。

curl和脚本

用于受控测试。发送带有自定义标头或有效载荷的原始请求可以揭示后端在将输入交给模型之前如何清理或格式化输入的差异。

提示库

已知越狱和间接注入有效载荷的集合提供了基线，但它们只是起点。根据应用的领域和上下文进行定制。

自定义有效载荷迭代

通常最有价值的工具是一个简单的笔记本或脚本，你可以在其中跟踪改变模型行为的变体。成功来自仔细的迭代和观察，而不是自动化。

工作流程看起来很熟悉：拦截流量，映射攻击面，并制作输入以探测弱点。不同的是有效载荷语言。不是SQL或shell，你是在塑造指令以绕过过滤器或提取隐藏上下文。

0x06 从Gandalf CTF学到的经验：提示注入策略

Gandalf CTF是一个有用的切入点，因为它消除了噪音，迫使你专注于提示注入的机制。每个级别都建立了关于模型如何解释指令以及过滤器在哪里失效的直觉。

一些经验直接转化为赏金工作：

过滤器是脆弱的。Gandalf的防护措施看起来很强，直到你以不同的方式表达请求。真实世界的应用也是如此——小的提示变体可以绕过单词过滤器或策略阻止。
上下文是杠杆。Gandalf以结构化的方式隐藏其答案。在生产中，敏感数据可能隐藏在系统提示或上下文窗口中。一旦你学会探测它，泄漏路径就变得清晰。
迭代获胜。挑战不是通过单个聪明的有效载荷解决的，而是通过测试许多小变体。这种心态反映了Web测试：利用通常只差一个有效载荷。

虽然CTF谜题是游戏化的，但它们教授的工作流程是实用的。记录你的有效载荷，注意哪些成功，并思考原因。将相同的过程应用于实时赏金目标是区分"有趣技巧"和"有效提交"的关键。

对于任何刚接触生成式AI安全的人，Gandalf提供了一个安全的实验室来练习。对于有经验的猎人，它提醒我们对抗性提示与其说是孤立的创造力，不如说是结构化的探索。

0x07 生成式AI漏洞赏金报告的利用后提示

一旦你证明了生成式AI漏洞，困难的部分往往是让它被认真对待。计划仍在学习如何对这些报告进行分类，因此清晰度很重要。

将此阶段视为标准的赏金工作流程：利用只是工作的一半。另一半是编写报告，以便审查者不会错过业务风险。如果做得好，生成式AI发现与SQLi或IDOR一起作为有效、可操作的漏洞——而不是新奇事物。

侧边栏：计划如何对生成式AI报告进行分类

如果你的报告涉及提示注入或数据泄漏，以下是审查者寻找的内容：

一致性。他们能重现你的步骤吗，还是二十次尝试中只工作一次？
清晰度。利用是被框定为安全问题，还是读起来像越狱挑战？
业务影响。它是否暴露敏感信息、绕过防护措施或让用户执行他们不应该执行的操作？

弱报告通常停留在"我让聊天机器人说了些有趣的话"。强报告直接与风险联系起来：“我从系统提示中提取了授予后端服务访问权限的凭据。“这种差异决定了发现是被奖励还是被驳回。

0x08 总结——为什么生成式AI安全对漏洞赏金猎人很重要

生成式AI是跨行业生产堆栈的一部分。这使它成为一个值得与任何其他Web应用组件一样严格对待的攻击面。

对于漏洞赏金猎人，机会在于细节：测试提示的构建方式、上下文窗口的填充方式以及防护措施在压力下的保持方式。机制并不完全新颖，但表示层是新的——计划开始为显示真实影响的发现付费。

如果你想找一个安全的地方来磨练这些技能，请重新访问Gandalf CTF的总结。解决谜题的相同迭代和文档习惯直接转化为有效的赏金报告。从那里开始，将过程应用于实时目标，用计划理解的术语描述你的发现，你将在这个领域领先于大多数猎人。

生成式AI将无处不在。那些学习如何负责任地测试它的人将发现自己拥有一个新鲜、有效、高影响的漏洞来源。