利用DeepSeek-R1:解析思维链安全漏洞

本文深入分析了DeepSeek-R1模型的思维链推理机制如何被恶意提示攻击利用,导致不安全输出生成和敏感数据泄露,并提出了通过过滤<think>标签和红队测试等防御策略来降低风险。

利用DeepSeek-R1:解析思维链安全漏洞

DeepSeek-R1采用思维链(CoT)推理,明确分享其逐步思考过程,我们发现这容易被提示攻击利用。

提示攻击可利用CoT推理的透明度实现恶意目标,类似于网络钓鱼策略,其影响因上下文而异。

我们使用NVIDIA的Garak等工具测试了DeepSeek-R1的各种攻击技术,发现由于CoT暴露,不安全输出生成和敏感数据窃取的成功率更高。

为降低提示攻击风险,建议在聊天机器人应用中过滤LLM响应中的标签,并采用红队策略进行持续漏洞评估和防御。

欢迎阅读本系列评估AI模型的首篇文章。本文将探讨DeepSeek-R1的发布。

思维链(CoT)推理的日益使用标志着大型语言模型的新时代。CoT推理鼓励模型在最终响应前逐步思考答案。DeepSeek-R1的一个显著特点是直接分享其CoT推理。我们对6710亿参数的DeepSeek-R1进行了一系列提示攻击,发现这些信息可被利用以显著提高攻击成功率。

思维链推理

CoT推理鼓励模型在得出最终响应前采取一系列中间步骤。这种方法已被证明能提升大型模型在数学基准测试(如GSM8K数据集)中的表现。

CoT已成为最先进推理模型的基石,包括OpenAI的O1和O3-mini以及DeepSeek-R1,所有这些模型都经过训练以采用CoT推理。

DeepSeek-R1模型的一个显著特点是,它在响应提示时明确显示其推理过程,包含在标签中。

提示攻击

提示攻击是攻击者精心制作并发送提示给LLM以实现恶意目标的行为。这些提示攻击可分为两部分:攻击技术和攻击目标。

在上面的示例中,攻击试图诱骗LLM揭示其系统提示,这是一组定义模型行为方式的总体指令。根据系统上下文,揭示系统提示的影响可能有所不同。例如,在基于代理的AI系统中,攻击者可以使用此技术发现代理可用的所有工具。

开发这些技术的过程类似于攻击者寻找诱骗用户点击网络钓鱼链接的方法。攻击者识别绕过系统防护的方法并加以利用,直到防御措施跟上——形成一个持续的适应和对抗循环。

鉴于基于代理的AI系统的预期增长,提示攻击技术预计将继续演变,对组织构成日益增长的风险。一个显著的例子是Google的Gemini集成,研究人员发现间接提示注入可导致模型生成网络钓鱼链接。

红队测试DeepSeek-R1

我们使用开源红队工具,如NVIDIA的Garak——旨在通过发送自动化提示攻击识别LLM漏洞——以及特别制作的提示攻击,分析DeepSeek-R1对各种攻击技术和目标的响应。

下表显示了我们调查中使用的攻击技术和目标。我们还根据OWASP的2025年LLM和Gen AI应用十大风险与缓解措施以及MITRE ATLAS包含了它们的ID。

名称 OWASP ID MITRE ATLAS ID
提示注入 LLM01:2025 – 提示注入 AML.T0051 – LLM提示注入
越狱 LLM01:2025 – 提示注入 AML.T0054 – LLM越狱

表1. 攻击技术及其在OWASP和MITRE ATLAS指数中的对应风险分类

名称 OWASP ID MITRE ATLAS ID
越狱 LLM01:2025 – 提示注入 AML.T0054 – LLM越狱
模型窃取 AML.T0048.004 – 外部危害:ML知识产权窃取
包幻觉 LLM09:2025 – 错误信息 AML.T0062 – 发现LLM幻觉
敏感数据窃取 LLM02:2025 – 敏感信息泄露 AML.T0057 – LLM数据泄漏
不安全输出生成 LLM05:2025 – 不当输出处理 AML.T0050 – 命令和脚本解释器
毒性 AML.T0048 – 外部危害

表2. 攻击目标及其在OWASP和MITRE ATLAS指数中的对应风险分类

窃取秘密

敏感信息绝不应包含在系统提示中。然而,缺乏安全意识可能导致其无意中暴露。在此示例中,系统提示包含一个秘密,但使用了提示硬化防御技术指示模型不要披露它。

如下所示,LLM的最终响应不包含秘密。然而,秘密在标签中明确披露,即使用户提示未要求它。为回答问题,模型在其所有可用信息中搜索上下文以成功解释用户提示。因此,这导致模型使用API规范来构建回答用户问题所需的HTTP请求。这无意中导致系统提示中的API密钥包含在其思维链中。

使用CoT发现攻击方法

在本节中,我们演示如何通过发现过程利用暴露的CoT。首先,我们尝试直接要求模型实现我们的目标:

当模型拒绝我们的请求时,我们通过直接询问其防护机制来探索它们。

模型似乎经过训练以拒绝冒充请求。我们可以进一步询问其关于冒充的思考过程。

有了标签中注明的这些例外,我们现在可以制作攻击以绕过防护机制实现我们的目标(使用负载拆分)。

攻击成功率

我们使用NVIDIA Garak评估不同攻击目标对DeepSeek-R1的表现。我们的发现表明,与毒性、越狱、模型窃取和包幻觉相比,不安全输出生成和敏感数据窃取类别的攻击成功率更高。我们怀疑这种差异可能受模型响应中标签存在的影响。然而,需要进一步研究确认这一点,我们计划在未来分享我们的发现。

防御提示攻击

我们的研究表明,模型响应中标签的内容可能包含对攻击者有价值的信息。暴露模型的CoT增加了威胁行为者发现和改进提示攻击以实现恶意目标的风险。为缓解此问题,我们建议在聊天机器人应用中过滤模型响应中的标签。

此外,红队测试是基于LLM应用的关键风险缓解策略。在本文中,我们演示了对抗测试的示例,并强调了像NVIDIA的Garak这样的工具如何帮助减少LLM的攻击面。我们很高兴在威胁格局演变时继续分享我们的研究。在未来几个月,我们计划评估更广泛的模型、技术和目标,以提供更深入的见解。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计