战略偏转:防御LLM免受Logit操纵攻击
随着大型语言模型(LLM)在关键领域的广泛应用,确保其免受越狱攻击的安全性至关重要。传统防御主要依赖拒绝恶意提示,而最近的logit级别攻击已证明能够通过直接操纵生成过程中的令牌选择来绕过这些保护措施。
我们引入了战略偏转(SDeflection),这是一种重新定义LLM对此类高级攻击响应的防御机制。模型不是直接拒绝,而是生成与用户请求语义相邻但剥离有害意图的答案,从而中和攻击者的恶意目的。我们的实验表明,SDeflection显著降低了攻击成功率(ASR),同时在良性查询上保持了模型性能。
这项工作代表了防御策略的关键转变,从简单拒绝转向战略内容重定向,以中和高级威胁。
评论: 20页
主题:
密码学与安全(cs.CR);人工智能(cs.AI);计算与语言(cs.CL)
引用为:
arXiv:2507.22160 [cs.CR]
(或此版本的 arXiv:2507.22160v1 [cs.CR])
DOI:
https://doi.org/10.48550/arXiv.2507.22160
提交历史:
来自:Yassine Rachidy [查看邮箱]
[v1] 2025年7月29日星期二 18:46:56 UTC(5,446 KB)