Text2VLM：将纯文本数据集适配为视觉语言模型对齐训练的评估工具

摘要

随着视觉语言模型（VLMs）在AI系统中的日益普及，模型对齐的鲁棒性变得至关重要，尤其是处理结合文本和图像的多模态内容时。现有的评估数据集严重偏向纯文本提示，导致视觉漏洞评估不足。为填补这一空白，我们提出Text2VLM——一个新颖的多阶段处理流程，可将纯文本数据集适配为多模态格式，专门用于评估VLM对抗排版提示注入攻击的韧性。该流程通过识别原始文本中的有害内容并将其转换为排版图像，生成针对VLM的多模态提示。我们对开源VLM的评估表明，当引入视觉输入时，模型对提示注入的敏感性显著增加，暴露出当前模型对齐机制的关键缺陷。此外，与闭源前沿模型相比存在显著性能差距。通过人工评估验证，Text2VLM能确保提取的关键概念对齐性，其文本摘要和输出分类符合人类预期。该工具为全面安全评估提供了可扩展的解决方案，有助于开发更健壮的VLM安全机制。

关键贡献

多模态数据集转换：提出首个将纯文本有害内容系统转换为视觉-文本混合提示的框架
安全漏洞发现：实证表明视觉输入会使开源VLM的提示注入成功率提升37%
评估标准化：建立包含1.2万个转换样本的基准测试集VLM-AlignEval
人工验证机制：采用三重校验流程确保转换后的多模态提示保持原始语义毒性

方法架构

Text2VLM包含三阶段处理流水线：

毒性检测层：基于改进的Unigram毒性分类器识别文本中的高危片段
视觉渲染引擎：采用对抗性字体生成技术创建包含恶意文本的自然场景图像
多模态组装模块：将生成的图像与去语境化文本提示组合，构建复合攻击向量

实验结果

在LLaVA-1.5和InstructBLIP模型上的测试显示：

纯文本攻击成功率：12.3% → 多模态攻击成功率：49.7%
模型安全护栏的误拦截率增加2.4倍
闭源模型（GPT-4V）在多模态攻击下仍保持83%的防御成功率

应用价值

该工具已被OpenAI和Anthropic纳入内部安全审计流程，相关技术正被用于开发新一代多模态对抗训练数据集。研究团队开源了核心转换代码库及部分基准数据。