通过多密钥水印技术防御生成式模型中的水印窃取攻击
水印技术为GenAI提供商提供了一种有前景的解决方案,用于确立其生成内容的来源。水印是一种隐藏在生成内容中的信号,其后可以使用秘密水印密钥进行验证。GenAI提供商面临的一个威胁是水印窃取攻击,即用户在没有访问秘密密钥的情况下,将水印伪造到并非由提供商模型生成的内容中,例如错误指控提供商。窃取攻击从提供商的模型中收集无害的水印样本,并旨在最大化生成有害水印样本的预期成功率。
我们的工作重点是在将底层水印视为黑盒的情况下缓解窃取攻击。我们的贡献包括: (i) 提出一种多密钥扩展方法,用于缓解窃取攻击,该方法可以事后应用于任何模态的任何水印方法。 (ii) 我们提供了理论保证,并通过实证证明我们的方法在多个数据集上显著降低了伪造的有效性。 (iii) 我们正式将水印伪造的威胁定义为生成有害水印内容的任务,并通过安全游戏对此威胁进行建模。