突破LVLM安全防线:PRISM利用图像序列编程推理实现越狱攻击

本文提出PRISM框架,通过将恶意指令分解为良性视觉小工具序列,利用大视觉语言模型的多步推理漏洞实现高效越狱攻击。在SafeBench和MM-SafetyBench基准测试中攻击成功率超过90%,比基线方法提升高达39%。

PRISM:基于图像序列程序化推理的LVLM越狱框架

摘要

大型视觉语言模型(LVLM)的日益复杂化伴随着安全对齐机制的进步,这些机制旨在防止有害内容生成。然而,这些防御措施仍然容易受到复杂对抗攻击的影响。现有的越狱方法通常依赖于直接且语义明确的提示,忽略了LVLM在多步推理过程中组合信息的微妙漏洞。

本文提出了一种新颖有效的越狱框架,其灵感来源于软件安全中的返回导向编程(ROP)技术。我们的方法将有害指令分解为一系列单独的良性视觉小工具。通过精心设计的文本提示引导输入序列,促使模型通过其推理过程整合这些良性视觉小工具,最终产生连贯且有害的输出。这使得恶意意图在整体中显现,而难以从任何单个组件中检测出来。

方法验证

我们在包括SafeBench和MM-SafetyBench在内的成熟基准上通过大量实验验证了我们的方法,针对流行的LVLM进行测试。结果表明,我们的方法在最先进模型上始终显著优于现有基线,实现了接近完美的攻击成功率(在SafeBench上超过0.90),并将攻击成功率(ASR)提高了高达0.39。

研究发现

我们的研究揭示了一个关键且未被充分探索的漏洞,该漏洞利用了LVLM的组合推理能力,突显了保护整个推理过程的防御措施的紧迫需求。

学科分类

  • 密码学与安全(cs.CR)
  • 计算机视觉与模式识别(cs.CV)

引用信息

arXiv:2507.21540 [cs.CR]
DOI: https://doi.org/10.48550/arXiv.2507.21540

提交历史

2025年7月29日提交

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计