思维链攻击 on 办公AI智能小助手

思维纯净：针对思维链攻击的防御范式

Wed, 17 Sep 2025 08:52:50 +0800

思维纯净：针对思维链攻击的防御范式

摘要

尽管经过强化学习训练的大型推理模型（LRMs，例如Deepseek-R1）在不断演进的大型语言模型（LLMs）领域展现出先进的推理能力，但它们对安全威胁的敏感性仍然是一个关键漏洞。这一弱点在思维链（CoT）生成过程中尤为明显，其中后门提示攻击等对抗方法可以系统性地破坏模型的核心推理机制。新兴的思维链攻击（CoTA）通过利用提示可控性揭示了这一漏洞，以低成本干预同时降低CoT安全性和任务性能。

利用DeepSeek-R1：剖析思维链安全漏洞

Sat, 13 Sep 2025 05:54:48 +0800

利用DeepSeek-R1：剖析思维链安全漏洞

DeepSeek-R1采用思维链（CoT）推理机制，明确分享其逐步思考过程，但我们发现这一特性可能被用于提示攻击。

提示攻击可利用CoT推理的透明度实现恶意目标，类似于网络钓鱼策略，其影响因上下文而异。我们使用NVIDIA的Garak等工具测试了多种攻击技术，发现由于CoT暴露，不安全输出生成和敏感数据窃取的攻击成功率较高。

利用DeepSeek-R1：剖析思维链安全漏洞

Sat, 13 Sep 2025 01:37:57 +0800

利用DeepSeek-R1：剖析思维链安全漏洞

DeepSeek-R1使用思维链（CoT）推理，明确分享其逐步思考过程，我们发现这容易被提示攻击利用。提示攻击可以利用CoT推理的透明度实现恶意目标，类似于网络钓鱼策略，其影响因上下文而异。

利用DeepSeek-R1：解析思维链安全漏洞

Sat, 06 Sep 2025 07:52:31 +0800

利用DeepSeek-R1：解析思维链安全漏洞

DeepSeek-R1采用思维链（CoT）推理，明确分享其逐步思考过程，我们发现这容易被提示攻击利用。

提示攻击可利用CoT推理的透明度实现恶意目标，类似于网络钓鱼策略，其影响因上下文而异。