注意力机制破解:基于架构感知攻击打破微调式提示注入防御

本研究针对基于微调的大语言模型提示注入防御机制,提出了一种新颖的注意力攻击算法。通过白盒攻击测试SecAlign和StruQ等最新防御系统,攻击成功率高达70%,揭示了现有防御在对抗性优化攻击下的脆弱性。

摘要

针对大语言模型(LLMs)提示注入攻击的一类流行防御方法依赖于对模型进行微调,以区分指令和数据,从而使LLM不会执行可能随数据出现的指令。目前已有多个学术系统和生产级实现采用了这一理念。我们在白盒设置下通过构建强大的基于优化的攻击来评估此类提示注入防御的鲁棒性,并证明这些防御并未提供所声称的安全特性。具体而言,我们为基于文本的LLMs构建了一种新颖的基于注意力的攻击算法,并将其应用于两种最新的白盒防御系统SecAlign(CCS 2025)和StruQ(USENIX Security 2025),结果显示攻击成功率高达70%,且攻击者预算(以token计)仅需适度增加。我们的研究结果在理解白盒设置下提示注入防御的鲁棒性方面取得了根本性进展。我们在https://[URL]发布了代码和攻击方法。

主题分类

  • 密码学与安全(cs.CR)
  • 人工智能(cs.AI)
  • 计算与语言(cs.CL)

引用信息

arXiv:2507.07417 [cs.CR]
(或当前版本 arXiv:2507.07417v1 [cs.CR])
DOI: https://doi.org/10.48550/arXiv.2507.07417

提交历史

来自:Nishit V Pandya [查看邮箱]
[v1] 2025年7月10日星期四 04:20:53 UTC(197 KB)

全文链接

  • 查看PDF:可查看由Nishit V. Pandya及其他三位作者撰写的论文《May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks》的PDF版本
  • TeX源码
  • 其他格式

相关资源

文献与引用工具

  • NASA ADS
  • Google Scholar
  • Semantic Scholar
  • BibTeX引用导出

代码、数据与媒体

  • alphaXiv(相关数据工具)
  • CatalyzeX代码查找器
  • DagsHub
  • Hugging Face
  • Papers with Code
  • ScienceCast

演示平台

  • Replicate
  • Hugging Face Spaces
  • TXYZ.AI

相关论文推荐

  • 影响力图谱(Influence Flower)
  • CORE推荐系统(按作者/机构/主题推荐)

附注

本论文所有资源与实验代码均通过上述平台公开,遵循arXivLabs的开放性与社区协作原则。所有合作方均严格遵守数据隐私与学术卓越准则。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计