LeakyCLIP:从CLIP中提取训练数据
理解对比语言-图像预训练(CLIP)中的记忆化和隐私泄露风险对于确保多模态模型的安全性至关重要。近期研究已证明从扩散模型中提取敏感训练样本的可行性,其中条件扩散模型表现出更强的记忆化和信息泄露倾向。本研究通过CLIP反演视角探讨CLIP中的数据记忆化和提取风险,该过程旨在从文本提示重建训练图像。
为此,我们引入LeakyCLIP,一种新颖的攻击框架,旨在从CLIP嵌入实现高质量、语义准确的图像重建。我们识别了CLIP反演中的三个关键挑战:1)非鲁棒特征,2)文本嵌入中有限的视觉语义,以及3)低重建保真度。为解决这些挑战,LeakyCLIP采用:1)对抗微调以增强优化平滑性,2)基于线性变换的嵌入对齐,以及3)基于Stable Diffusion的细化以提高保真度。
实证结果证明了LeakyCLIP的优越性,在LAION-2B子集上,ViT-B-16的结构相似性指数(SSIM)相比基线方法提升了超过358%。此外,我们揭示了普遍的泄露风险,表明训练数据成员资格甚至可以从低保真度重建的指标中成功推断。我们的工作引入了一种实用的CLIP反演方法,同时为多模态模型中隐私风险的性质和范围提供了新颖见解。
主题分类: 密码学与安全(cs.CR)
引用信息: arXiv:2508.00756 [cs.CR]
提交历史: 2025年8月1日提交
全文链接: 查看PDF | HTML实验版