思维纯净:针对思维链攻击的防御范式
摘要
尽管经过强化学习训练的大型推理模型(LRMs,例如Deepseek-R1)在不断演进的大型语言模型(LLMs)领域展现出先进的推理能力,但它们对安全威胁的敏感性仍然是一个关键漏洞。这一弱点在思维链(CoT)生成过程中尤为明显,其中后门提示攻击等对抗方法可以系统性地破坏模型的核心推理机制。新兴的思维链攻击(CoTA)通过利用提示可控性揭示了这一漏洞,以低成本干预同时降低CoT安全性和任务性能。
为解决这种复合的安全-性能漏洞,我们提出了思维纯净(TP):一种防御范式,系统性地增强对恶意内容的抵抗能力,同时保持操作效能。我们的解决方案通过三个协同组件实现这一目标:(1)安全优化的数据处理管道;(2)强化学习增强的规则约束;(3)自适应监控指标。我们的方法建立了首个针对强化学习对齐推理系统中CoTA漏洞的全面防御机制,显著推进了下一代AI架构的安全-功能平衡。
主题分类
- 机器学习(cs.LG)
- 人工智能(cs.AI)
- 计算工程、金融与科学(cs.CE)
- 密码学与安全(cs.CR)