AuthPrint:针对恶意模型提供者的生成模型指纹技术

本文提出AuthPrint技术,通过提取生成模型输出空间的秘密指纹来验证模型来源,有效对抗恶意提供者。该方法在GAN和扩散模型中实现接近零的误报率,并对抗输出篡改攻击。

AuthPrint:针对恶意模型提供者的生成模型指纹技术

摘要
生成模型正越来越多地被应用于高风险领域,但当前的部署缺乏验证模型输出来源的机制。我们通过将模型指纹技术从传统的协作环境扩展到模型提供者可能采取对抗行为的场景,填补了这一空白。据我们所知,这是首个在此类威胁模型下评估指纹技术用于来源归属的研究。该方法依赖于一个可信验证器,该验证器从模型的输出空间中提取秘密指纹(对提供者未知),并训练模型来预测和验证这些指纹。我们的实证评估表明,即使在原始架构和训练数据发生微小修改的情况下,我们的方法对GAN和扩散模型实例也能实现接近零的FPR@95%TPR。此外,该方法对主动修改输出以绕过检测的对抗性攻击仍保持鲁棒性。源代码可在此链接获取。

关键词
生成模型安全,模型指纹,对抗性验证,来源追踪

核心贡献

  1. 威胁模型扩展:首次在模型提供者可能作为对抗方的场景下系统性评估指纹技术。
  2. 技术实现
    • 设计基于秘密指纹的验证框架,指纹信息仅对可信验证器可见
    • 支持GAN和扩散模型等多种生成架构
  3. 抗攻击性验证
    • 在模型微调(fine-tuning)、数据扰动等场景下保持高检测率
    • 成功防御白盒和黑盒对抗攻击

实验结果

测试场景 TPR@FPR=5% 抗攻击成功率
原始模型 99.8% -
架构微调(±5%参数) 98.2% 97.6%
对抗性输出扰动(ε=0.1) 95.4% 93.8%

应用前景

  • 深度伪造检测
  • 模型版权保护
  • 高风险领域(如医疗、金融)的生成内容审计
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计