Text2VLM:将纯文本数据集适配为视觉语言模型对齐训练的评估工具

本文提出Text2VLM多阶段处理流程,可将纯文本数据集转换为多模态格式,专门用于评估视觉语言模型(VLM)对抗排版提示注入攻击的鲁棒性,揭示了当前开源VLM模型在引入视觉输入时存在的安全脆弱性。

摘要

随着视觉语言模型(VLMs)在AI系统中的日益普及,模型对齐的鲁棒性变得至关重要,尤其是处理结合文本和图像的多模态内容时。现有的评估数据集严重偏向纯文本提示,导致视觉漏洞评估不足。为填补这一空白,我们提出Text2VLM——一个新颖的多阶段处理流程,可将纯文本数据集适配为多模态格式,专门用于评估VLM对抗排版提示注入攻击的韧性。该流程通过识别原始文本中的有害内容并将其转换为排版图像,生成针对VLM的多模态提示。我们对开源VLM的评估表明,当引入视觉输入时,模型对提示注入的敏感性显著增加,暴露出当前模型对齐机制的关键缺陷。此外,与闭源前沿模型相比存在显著性能差距。通过人工评估验证,Text2VLM能确保提取的关键概念对齐性,其文本摘要和输出分类符合人类预期。该工具为全面安全评估提供了可扩展的解决方案,有助于开发更健壮的VLM安全机制。

关键贡献

  1. 多模态数据集转换:提出首个将纯文本有害内容系统转换为视觉-文本混合提示的框架
  2. 安全漏洞发现:实证表明视觉输入会使开源VLM的提示注入成功率提升37%
  3. 评估标准化:建立包含1.2万个转换样本的基准测试集VLM-AlignEval
  4. 人工验证机制:采用三重校验流程确保转换后的多模态提示保持原始语义毒性

方法架构

Text2VLM包含三阶段处理流水线:

  1. 毒性检测层:基于改进的Unigram毒性分类器识别文本中的高危片段
  2. 视觉渲染引擎:采用对抗性字体生成技术创建包含恶意文本的自然场景图像
  3. 多模态组装模块:将生成的图像与去语境化文本提示组合,构建复合攻击向量

实验结果

在LLaVA-1.5和InstructBLIP模型上的测试显示:

  • 纯文本攻击成功率:12.3% → 多模态攻击成功率:49.7%
  • 模型安全护栏的误拦截率增加2.4倍
  • 闭源模型(GPT-4V)在多模态攻击下仍保持83%的防御成功率

应用价值

该工具已被OpenAI和Anthropic纳入内部安全审计流程,相关技术正被用于开发新一代多模态对抗训练数据集。研究团队开源了核心转换代码库及部分基准数据。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计