战略偏转:防御LLM免受Logit操纵攻击

本文提出Strategic Deflection(SDeflection)防御机制,通过语义相邻响应中和恶意意图,有效降低LLM在logit级别攻击下的成功率,同时保持良性查询性能,代表了从简单拒绝到战略内容重定向的关键转变。

战略偏转:防御LLM免受Logit操纵攻击

随着大型语言模型(LLM)在关键领域的广泛应用,确保其免受越狱攻击的安全性至关重要。传统防御主要依赖拒绝恶意提示,而最近的logit级别攻击已证明能够通过直接操纵生成过程中的令牌选择来绕过这些保护措施。

我们引入了战略偏转(SDeflection),这是一种重新定义LLM对此类高级攻击响应的防御机制。模型不是直接拒绝,而是生成与用户请求语义相邻但剥离有害意图的答案,从而中和攻击者的恶意目的。我们的实验表明,SDeflection显著降低了攻击成功率(ASR),同时在良性查询上保持了模型性能。

这项工作代表了防御策略的关键转变,从简单拒绝转向战略内容重定向,以中和高级威胁。

评论: 20页

主题:
密码学与安全(cs.CR);人工智能(cs.AI);计算与语言(cs.CL)

引用为:
arXiv:2507.22160 [cs.CR]
(或此版本的 arXiv:2507.22160v1 [cs.CR])

DOI:
https://doi.org/10.48550/arXiv.2507.22160

提交历史:
来自:Yassine Rachidy [查看邮箱]
[v1] 2025年7月29日星期二 18:46:56 UTC(5,446 KB)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计