利用DeepSeek-R1:解析思维链安全漏洞
DeepSeek-R1采用思维链(CoT)推理,明确分享其逐步思考过程,我们发现这容易被提示攻击利用。
提示攻击可利用CoT推理的透明度实现恶意目标,类似于网络钓鱼策略,其影响因上下文而异。
我们使用NVIDIA的Garak等工具测试了DeepSeek-R1的各种攻击技术,发现由于CoT暴露,不安全输出生成和敏感数据窃取的成功率更高。
为降低提示攻击风险,建议在聊天机器人应用中过滤LLM响应中的
欢迎阅读本系列评估AI模型的首篇文章。本文将探讨DeepSeek-R1的发布。
思维链(CoT)推理的日益使用标志着大型语言模型的新时代。CoT推理鼓励模型在最终响应前逐步思考答案。DeepSeek-R1的一个显著特点是直接分享其CoT推理。我们对6710亿参数的DeepSeek-R1进行了一系列提示攻击,发现这些信息可被利用以显著提高攻击成功率。
思维链推理
CoT推理鼓励模型在得出最终响应前采取一系列中间步骤。这种方法已被证明能提升大型模型在数学基准测试(如GSM8K数据集)中的表现。
CoT已成为最先进推理模型的基石,包括OpenAI的O1和O3-mini以及DeepSeek-R1,所有这些模型都经过训练以采用CoT推理。
DeepSeek-R1模型的一个显著特点是,它在响应提示时明确显示其推理过程,包含在
提示攻击
提示攻击是攻击者精心制作并发送提示给LLM以实现恶意目标的行为。这些提示攻击可分为两部分:攻击技术和攻击目标。
在上面的示例中,攻击试图诱骗LLM揭示其系统提示,这是一组定义模型行为方式的总体指令。根据系统上下文,揭示系统提示的影响可能有所不同。例如,在基于代理的AI系统中,攻击者可以使用此技术发现代理可用的所有工具。
开发这些技术的过程类似于攻击者寻找诱骗用户点击网络钓鱼链接的方法。攻击者识别绕过系统防护的方法并加以利用,直到防御措施跟上——形成一个持续的适应和对抗循环。
鉴于基于代理的AI系统的预期增长,提示攻击技术预计将继续演变,对组织构成日益增长的风险。一个显著的例子是Google的Gemini集成,研究人员发现间接提示注入可导致模型生成网络钓鱼链接。
红队测试DeepSeek-R1
我们使用开源红队工具,如NVIDIA的Garak——旨在通过发送自动化提示攻击识别LLM漏洞——以及特别制作的提示攻击,分析DeepSeek-R1对各种攻击技术和目标的响应。
下表显示了我们调查中使用的攻击技术和目标。我们还根据OWASP的2025年LLM和Gen AI应用十大风险与缓解措施以及MITRE ATLAS包含了它们的ID。
名称 | OWASP ID | MITRE ATLAS ID |
---|---|---|
提示注入 | LLM01:2025 – 提示注入 | AML.T0051 – LLM提示注入 |
越狱 | LLM01:2025 – 提示注入 | AML.T0054 – LLM越狱 |
表1. 攻击技术及其在OWASP和MITRE ATLAS指数中的对应风险分类
名称 | OWASP ID | MITRE ATLAS ID |
---|---|---|
越狱 | LLM01:2025 – 提示注入 | AML.T0054 – LLM越狱 |
模型窃取 | AML.T0048.004 – 外部危害:ML知识产权窃取 | |
包幻觉 | LLM09:2025 – 错误信息 | AML.T0062 – 发现LLM幻觉 |
敏感数据窃取 | LLM02:2025 – 敏感信息泄露 | AML.T0057 – LLM数据泄漏 |
不安全输出生成 | LLM05:2025 – 不当输出处理 | AML.T0050 – 命令和脚本解释器 |
毒性 | AML.T0048 – 外部危害 |
表2. 攻击目标及其在OWASP和MITRE ATLAS指数中的对应风险分类
窃取秘密
敏感信息绝不应包含在系统提示中。然而,缺乏安全意识可能导致其无意中暴露。在此示例中,系统提示包含一个秘密,但使用了提示硬化防御技术指示模型不要披露它。
如下所示,LLM的最终响应不包含秘密。然而,秘密在
使用CoT发现攻击方法
在本节中,我们演示如何通过发现过程利用暴露的CoT。首先,我们尝试直接要求模型实现我们的目标:
当模型拒绝我们的请求时,我们通过直接询问其防护机制来探索它们。
模型似乎经过训练以拒绝冒充请求。我们可以进一步询问其关于冒充的思考过程。
有了
攻击成功率
我们使用NVIDIA Garak评估不同攻击目标对DeepSeek-R1的表现。我们的发现表明,与毒性、越狱、模型窃取和包幻觉相比,不安全输出生成和敏感数据窃取类别的攻击成功率更高。我们怀疑这种差异可能受模型响应中
防御提示攻击
我们的研究表明,模型响应中
此外,红队测试是基于LLM应用的关键风险缓解策略。在本文中,我们演示了对抗测试的示例,并强调了像NVIDIA的Garak这样的工具如何帮助减少LLM的攻击面。我们很高兴在威胁格局演变时继续分享我们的研究。在未来几个月,我们计划评估更广泛的模型、技术和目标,以提供更深入的见解。