AuthPrint：针对恶意模型提供者的生成模型指纹技术

摘要
生成模型正越来越多地被应用于高风险领域，但当前的部署缺乏验证模型输出来源的机制。我们通过将模型指纹技术从传统的协作环境扩展到模型提供者可能采取对抗行为的场景，填补了这一空白。据我们所知，这是首个在此类威胁模型下评估指纹技术用于来源归属的研究。该方法依赖于一个可信验证器，该验证器从模型的输出空间中提取秘密指纹（对提供者未知），并训练模型来预测和验证这些指纹。我们的实证评估表明，即使在原始架构和训练数据发生微小修改的情况下，我们的方法对GAN和扩散模型实例也能实现接近零的FPR@95%TPR。此外，该方法对主动修改输出以绕过检测的对抗性攻击仍保持鲁棒性。源代码可在此链接获取。

关键词
生成模型安全，模型指纹，对抗性验证，来源追踪