利用DeepSeek-R1:剖析思维链安全漏洞
DeepSeek-R1采用思维链(CoT)推理机制,明确分享其逐步思考过程,但我们发现这一特性可能被用于提示攻击。
提示攻击可利用CoT推理的透明度实现恶意目标,类似于网络钓鱼策略,其影响因上下文而异。我们使用NVIDIA的Garak等工具测试了多种攻击技术,发现由于CoT暴露,不安全输出生成和敏感数据窃取的攻击成功率较高。
为降低提示攻击风险,建议在聊天机器人应用中过滤LLM响应中的<think>标签,并采用红队策略进行持续漏洞评估和防御。
思维链推理
CoT推理鼓励模型在生成最终响应前进行一系列中间步骤。这种方法已被证明能提升大型模型在数学基准测试(如GSM8K数据集)中的表现。CoT已成为最先进推理模型(包括OpenAI的O1和O3-mini以及DeepSeek-R1)的基石,这些模型均经过训练以采用CoT推理。
DeepSeek-R1的一个显著特点是其在响应提示时明确显示其推理过程,包含在<think>和</think>标签中。
提示攻击
提示攻击是指攻击者精心构造并发送提示给LLM以实现恶意目标。这些攻击可分为两部分:攻击技术和攻击目标。
开发这些技术的过程类似于攻击者寻找欺骗用户点击网络钓鱼链接的方法。攻击者识别绕过系统防护的方法并加以利用,直到防御措施跟上——形成持续的适应和对抗循环。
鉴于基于代理的AI系统的预期增长,提示攻击技术预计将继续演变,对组织构成日益增长的风险。一个显著的例子是Google的Gemini集成,研究人员发现间接提示注入可能导致模型生成网络钓鱼链接。
红队测试DeepSeek-R1
我们使用开源红队工具(如NVIDIA的Garak)以及专门构造的提示攻击来分析DeepSeek-R1对各种攻击技术和目标的响应。Garak旨在通过发送自动化提示攻击来识别LLM中的漏洞。
以下表格显示了我们在调查中使用的攻击技术和目标,并包含了基于OWASP 2025年LLM和Gen AI应用十大风险与缓解措施以及MITRE ATLAS的ID。
表1:攻击技术及其对应的风险分类
| 名称 | OWASP ID | MITRE ATLAS ID |
|---|---|---|
| 提示注入 | LLM01:2025 – 提示注入 | AML.T0051 – LLM提示注入 |
| 越狱 | LLM01:2025 – 提示注入 | AML.T0054 – LLM越狱 |
表2:攻击目标及其对应的风险分类
| 名称 | OWASP ID | MITRE ATLAS ID |
|---|---|---|
| 越狱 | LLM01:2025 – 提示注入 | AML.T0054 – LLM越狱 |
| 模型窃取 | AML.T0048.004 – 外部危害:ML知识产权窃取 | |
| 包幻觉 | LLM09:2025 – 错误信息 | AML.T0062 – 发现LLM幻觉 |
| 敏感数据窃取 | LLM02:2025 – 敏感信息泄露 | AML.T0057 – LLM数据泄漏 |
| 不安全输出生成 | LLM05:2025 – 不当输出处理 | AML.T0050 – 命令和脚本解释器 |
| 毒性 | AML.T0048 – 外部危害 |
窃取秘密
敏感信息绝不应包含在系统提示中。然而,缺乏安全意识可能导致其无意中暴露。在以下示例中,系统提示包含一个秘密,但使用了提示硬化防御技术来指示模型不要披露它。
如图所示,LLM的最终响应不包含秘密。然而,秘密在<think>标签中明确披露,即使用户提示没有要求它。为了回答问题,模型在其所有可用信息中搜索上下文以成功解释用户提示。因此,这导致模型使用API规范来构造回答用户问题所需的HTTP请求。这无意中导致系统提示中的API密钥包含在其思维链中。
使用CoT发现攻击方法
在本节中,我们演示了如何通过发现过程利用暴露的CoT。首先,我们尝试直接要求模型实现我们的目标:
当模型拒绝我们的请求时,我们通过直接询问其防护机制来探索它们。
模型似乎经过训练以拒绝冒充请求。我们可以进一步询问其关于冒充的思考过程。
通过这些在<think>标签中记录的例外,我们现在可以构造攻击以绕过防护机制来实现我们的目标(使用负载拆分)。
攻击成功率
我们使用NVIDIA Garak评估了不同攻击目标对DeepSeek-R1的表现。我们的发现表明,与毒性、越狱、模型窃取和包幻觉相比,不安全输出生成和敏感数据窃取类别的攻击成功率更高。我们怀疑这种差异可能受到模型响应中<think>标签存在的影响。然而,需要进一步研究来确认这一点,我们计划在未来分享我们的发现。
防御提示攻击
我们的研究表明,模型响应中<think>标签的内容可能包含对攻击者有价值的信息。暴露模型的CoT增加了威胁行为者发现和改进提示攻击以实现恶意目标的风险。为缓解此风险,我们建议在聊天机器人应用中过滤模型响应中的<think>标签。
此外,红队测试是基于LLM的应用的关键风险缓解策略。在本文中,我们演示了对抗测试的示例,并强调了像NVIDIA的Garak这样的工具如何帮助减少LLM的攻击面。我们很高兴能继续分享我们的研究,随着威胁形势的演变。在接下来的几个月里,我们计划评估更广泛的模型、技术和目标,以提供更深入的见解。