文本转视觉模型评估方法解析

本文提出Text2VLM多阶段流程,将纯文本数据集转换为多模态格式,专门用于评估视觉语言模型对抗排版提示注入攻击的鲁棒性。研究揭示开源模型在引入视觉输入时更容易受到提示注入攻击,存在显著性能差距。

Text2VLM:适配纯文本数据集以评估视觉语言模型的对齐训练

随着视觉语言模型(VLMs)在人工智能系统中的日益集成,模型对齐变得尤为重要,特别是在处理结合文本和图像的多模态内容时。现有的评估数据集严重偏向纯文本提示,导致视觉漏洞评估不足。

为弥补这一差距,提出Text2VLM——一种新颖的多阶段流程,将纯文本数据集转换为多模态格式,专门设计用于评估VLMs对抗排版提示注入攻击的韧性。Text2VLM流程识别原始文本中的有害内容,并将其转换为排版图像,为VLMs创建多模态提示。

此外,对开源VLMs的评估显示,当引入视觉输入时,这些模型对提示注入的敏感性显著增加,揭示了当前模型对齐中的关键弱点。与闭源前沿模型相比,还存在显著性能差距。

通过人工评估验证Text2VLM,确保提取的显著概念对齐;文本摘要和输出分类与人类预期一致。Text2VLM为全面安全评估提供了可扩展工具,有助于开发更强大的VLM安全机制。通过增强多模态漏洞的评估,Text2VLM在推进VLMs在多样化实际应用中的安全部署方面发挥重要作用。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计