隐形注入:通过隐写提示嵌入攻击视觉-语言模型

本文首次全面研究针对视觉-语言模型的隐写提示注入攻击,通过空间、频率和神经隐写技术将恶意指令嵌入图像,在GPT-4V、Claude和LLaVA等主流模型中实现24.3%的攻击成功率,揭示了当前架构的安全漏洞并提出了有效防御措施。

隐形注入:通过隐写提示嵌入攻击视觉-语言模型

视觉-语言模型(VLMs)彻底改变了多模态AI应用,但引入了尚未被充分探索的新型安全漏洞。我们首次全面研究了针对VLMs的隐写提示注入攻击,其中恶意指令通过先进的隐写技术被隐形嵌入图像中。我们的方法表明,当前的VLM架构在正常图像处理过程中可能无意中提取并执行隐藏提示,导致隐蔽的行为操纵。

我们开发了一个结合空间、频率和神经隐写方法的多域嵌入框架,在包括GPT-4V、Claude和LLaVA在内的领先VLM中实现了24.3%(±3.2%,95%置信区间)的总体攻击成功率,其中神经隐写方法最高达到31.8%,同时保持了合理的视觉不可感知性(PSNR大于38 dB,SSIM大于0.94)。

通过对12个不同数据集和8个最先进模型的系统评估,我们揭示了当前VLM架构中存在中等但具有意义的漏洞,并提出了有效的对策。我们的发现对VLM在安全关键应用中的部署具有重要意义,并强调了建立适当的多模态AI安全框架的必要性。

评论: 14页

主题: 密码学与安全(cs.CR)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计