SLIP:基于软标签机制与关键提取引导CoT的API指令后门防御技术

本文提出SLIP防御机制,结合关键提取引导的思维链(KCoT)和软标签机制(SLM),有效对抗大语言模型API中的黑盒指令后门攻击,将攻击成功率从90.2%降至25.13%,同时保持高精度。

SLIP:基于软标签机制与关键提取引导CoT的API指令后门防御

摘要

随着定制化大语言模型(LLM)代理的发展,黑盒后门攻击的新威胁已经出现,恶意指令被注入到隐藏的系统提示中。这些攻击轻易绕过了依赖白盒访问的现有防御措施,构成了严重的安全挑战。为解决此问题,我们提出了SLIP,一种基于软标签机制和关键提取引导的思维链(CoT)防御方法,用于对抗API中的指令后门。SLIP的设计基于两个关键洞察:首先,为了抵消模型对触发器的过度敏感,我们提出了关键提取引导的思维链(KCoT)。KCoT不仅考虑单个触发器或输入句子,还提示代理提取与任务相关的关键短语。其次,为了引导LLM朝向正确答案,我们提出的软标签机制(SLM)提示代理量化关键短语与候选答案之间的语义相关性。关键的是,为了减轻KCoT提取的短语中残留触发器或误导内容的影响(这通常导致异常分数),SLM排除显著偏离均值的异常分数,随后平均剩余分数以获得更可靠的语义表示。在分类和问答(QA)任务上的广泛实验表明,SLIP非常有效,将平均攻击成功率(ASR)从90.2%降低到25.13%,同时在干净数据上保持高精度,并优于最先进的防御方法。我们的代码可在此链接获取。

主题

密码学与安全(cs.CR)

引用

arXiv:2508.06153 [cs.CR]

提交历史

来自:Zhengxian Wu [查看电子邮件] [v1] 2025年8月8日星期五 09:17:33 UTC(1,252 KB)

全文链接

许可

当前浏览上下文:cs.CR

相关工具

  • NASA ADS
  • Google Scholar
  • Semantic Scholar

代码、数据与媒体

与本文相关的代码、数据和媒体可通过以下链接获取:

  • alphaXiv
  • CatalyzeX 代码查找器
  • DagsHub
  • GotitPub
  • Hugging Face
  • Papers with Code
  • ScienceCast

演示

  • Replicate
  • Hugging Face Spaces
  • TXYZ.AI

关于

arXivLabs:与社区合作者进行的实验项目。arXivLabs是一个框架,允许合作者直接在我们的网站上开发和共享新的arXiv功能。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计