JPS:通过协同视觉扰动和文本引导越狱多模态大语言模型
针对多模态大语言模型(MLLMs)的越狱攻击是一个重要的研究方向。当前研究主要关注最大化攻击成功率(ASR),但往往忽略了生成的响应是否真正实现了攻击者的恶意意图。这种疏忽经常导致输出质量低下:虽然绕过了安全过滤器,但缺乏实质性的有害内容。
为了弥补这一空白,我们提出了JPS方法(通过协同视觉扰动和文本引导越狱MLLMs),该方法通过视觉图像和文本引导提示的协作实现越狱。具体而言,JPS利用目标导向的对抗图像扰动来有效绕过安全机制,并辅以通过多智能体系统优化的"引导提示",专门指导LLM响应以满足攻击者的意图。这些视觉和文本组件经过迭代协同优化以提升性能。
为了评估攻击结果的质量,我们提出了恶意意图实现率(MIFR)指标,该指标使用基于推理LLM的评估器进行评估。我们的实验表明,JPS在各种MLLMs和基准测试中,在ASR和MIFR两方面均达到了新的最先进水平,分析结果证实了其有效性。代码可在此链接获取。
警告:本文包含潜在敏感内容。
评论
10页,3张表格,2张图,将发表于第33届ACM国际多媒体会议(MM ‘25)论文集。
主题
多媒体(cs.MM);人工智能(cs.AI);计算与语言(cs.CL);密码学与安全(cs.CR)
ACM分类
I.2.7;K.4.1;K.6.5
引用
arXiv:2508.05087 [cs.MM]
相关DOI
https://doi.org/10.1145/3746027.3754561
提交历史
来自:Renmiao Chen [查看邮箱] [v1] 2025年8月7日 07:14:01 UTC(1,900 KB)