PMark:基于通道约束的鲁棒无失真语义级水印技术
摘要
针对大语言模型(LLMs)的语义级水印(SWM)技术通过将句子作为基本单元,能够有效提升水印对文本修改和改写攻击的鲁棒性。然而现有方法仍缺乏坚实的鲁棒性理论保证,且基于拒绝采样的生成方式会导致与未加水印输出相比产生显著的分布失真。
本研究通过代理函数(PF)的概念提出新的语义级水印理论框架——这些函数可将句子映射为标量值。基于该框架,我们提出PMark方法,这种简洁而强大的SWM方法通过动态采样估计下一句的PF中值,同时实施多个PF约束(称为通道)以增强水印证据。凭借扎实的理论保证,PMark实现了无失真特性,并提升了对改写式攻击的鲁棒性。我们还提供了经验优化版本,进一步消除了动态中值估计的需求,提升了采样效率。
实验结果表明,PMark在文本质量和鲁棒性方面均优于现有SWM基线方法,为机器生成文本检测提供了更有效的范式。代码将发布于此链接。
研究背景
随着大语言模型的广泛应用,区分机器生成文本与人工创作文本的需求日益迫切。语义级水印技术通过在水印嵌入过程中考虑句子级语义特征,相比传统词汇级水印具有更强的抗攻击能力。
技术框架
PMark框架的核心创新在于:
- 代理函数理论:建立句子到标量值的映射关系
- 动态中值估计:通过采样实时计算PF中值
- 多通道约束:通过多个PF通道强化水印证据
- 无失真保证:理论证明可避免分布偏移
实验验证
实验结果显示,PMark在保持文本生成质量的同时,显著提升了对各类改写攻击的检测准确率。与基线方法相比,PMark在语义保持度和水印鲁棒性方面均表现出色。
结论
PMark为语义级水印技术提供了新的理论框架和实践方法,通过代理函数和通道约束机制实现了鲁棒性与无失真性的平衡,为大语言模型的水印技术发展指明了新方向。