潜藏的仇恨:AI生成仇恨幻觉内容审核的风险与技术挑战
摘要
文本到图像扩散模型的最新进展催生了一种新的数字艺术形式:光学幻觉——通过视觉技巧创造对现实的不同感知。然而,攻击者可能滥用此类技术生成仇恨幻觉,将特定仇恨信息嵌入无害场景中,并在网络社区中传播。在本研究中,我们首次调查了可扩展仇恨幻觉生成的风险以及绕过当前内容审核模型的潜力。
方法
具体而言,我们使用Stable Diffusion和ControlNet生成了1,860个光学幻觉,基于62条仇恨信息作为条件。其中1,571个是成功嵌入仇恨信息(明显或隐蔽)的仇恨幻觉,形成了仇恨幻觉数据集。
实验结果
使用该数据集,我们评估了六个审核分类器和九个视觉语言模型(VLMs)在识别仇恨幻觉方面的性能。实验结果显示现有审核模型存在显著漏洞:审核分类器的检测准确率低于0.245,VLMs的检测准确率低于0.102。
技术分析
我们进一步发现了它们视觉编码器的一个关键限制:主要关注表面级图像细节,而忽略了信息的第二层,即隐藏消息。
缓解措施
为应对这一风险,我们探索了初步的缓解措施,并从图像转换和训练级策略的角度确定了最有效的方法。
备注
本研究已被ICCV 2025接收。