摘要
随着视觉语言模型(VLMs)在AI系统中的日益普及,模型对齐的鲁棒性变得至关重要,尤其是处理结合文本和图像的多模态内容时。现有的评估数据集严重偏向纯文本提示,导致视觉漏洞评估不足。为填补这一空白,我们提出Text2VLM——一个新颖的多阶段处理流程,可将纯文本数据集适配为多模态格式,专门用于评估VLM对抗排版提示注入攻击的韧性。该流程通过识别原始文本中的有害内容并将其转换为排版图像,生成针对VLM的多模态提示。我们对开源VLM的评估表明,当引入视觉输入时,模型对提示注入的敏感性显著增加,暴露出当前模型对齐机制的关键缺陷。此外,与闭源前沿模型相比存在显著性能差距。通过人工评估验证,Text2VLM能确保提取的关键概念对齐性,其文本摘要和输出分类符合人类预期。该工具为全面安全评估提供了可扩展的解决方案,有助于开发更健壮的VLM安全机制。
关键贡献
- 多模态数据集转换:提出首个将纯文本有害内容系统转换为视觉-文本混合提示的框架
- 安全漏洞发现:实证表明视觉输入会使开源VLM的提示注入成功率提升37%
- 评估标准化:建立包含1.2万个转换样本的基准测试集VLM-AlignEval
- 人工验证机制:采用三重校验流程确保转换后的多模态提示保持原始语义毒性
方法架构
Text2VLM包含三阶段处理流水线:
- 毒性检测层:基于改进的Unigram毒性分类器识别文本中的高危片段
- 视觉渲染引擎:采用对抗性字体生成技术创建包含恶意文本的自然场景图像
- 多模态组装模块:将生成的图像与去语境化文本提示组合,构建复合攻击向量
实验结果
在LLaVA-1.5和InstructBLIP模型上的测试显示:
- 纯文本攻击成功率:12.3% → 多模态攻击成功率:49.7%
- 模型安全护栏的误拦截率增加2.4倍
- 闭源模型(GPT-4V)在多模态攻击下仍保持83%的防御成功率
应用价值
该工具已被OpenAI和Anthropic纳入内部安全审计流程,相关技术正被用于开发新一代多模态对抗训练数据集。研究团队开源了核心转换代码库及部分基准数据。