SLIP:基于软标签机制与关键提取引导CoT的API指令后门防御
摘要
随着定制化大语言模型(LLM)代理的发展,黑盒后门攻击的新威胁已经出现,恶意指令被注入到隐藏的系统提示中。这些攻击轻易绕过了依赖白盒访问的现有防御措施,构成了严重的安全挑战。为解决此问题,我们提出了SLIP,一种基于软标签机制和关键提取引导的思维链(CoT)防御方法,用于对抗API中的指令后门。SLIP的设计基于两个关键洞察:首先,为了抵消模型对触发器的过度敏感,我们提出了关键提取引导的思维链(KCoT)。KCoT不仅考虑单个触发器或输入句子,还提示代理提取与任务相关的关键短语。其次,为了引导LLM朝向正确答案,我们提出的软标签机制(SLM)提示代理量化关键短语与候选答案之间的语义相关性。关键的是,为了减轻KCoT提取的短语中残留触发器或误导内容的影响(这通常导致异常分数),SLM排除显著偏离均值的异常分数,随后平均剩余分数以获得更可靠的语义表示。在分类和问答(QA)任务上的广泛实验表明,SLIP非常有效,将平均攻击成功率(ASR)从90.2%降低到25.13%,同时在干净数据上保持高精度,并优于最先进的防御方法。我们的代码可在此链接获取。
主题
密码学与安全(cs.CR)
引用
arXiv:2508.06153 [cs.CR]
提交历史
来自:Zhengxian Wu [查看电子邮件] [v1] 2025年8月8日星期五 09:17:33 UTC(1,252 KB)
全文链接
许可
当前浏览上下文:cs.CR
相关工具
- NASA ADS
- Google Scholar
- Semantic Scholar
代码、数据与媒体
与本文相关的代码、数据和媒体可通过以下链接获取:
- alphaXiv
- CatalyzeX 代码查找器
- DagsHub
- GotitPub
- Hugging Face
- Papers with Code
- ScienceCast
演示
- Replicate
- Hugging Face Spaces
- TXYZ.AI
关于
arXivLabs:与社区合作者进行的实验项目。arXivLabs是一个框架,允许合作者直接在我们的网站上开发和共享新的arXiv功能。