RLCracker:利用自适应强化学习攻击揭示LLM水印的脆弱性

本文提出RLCracker,一种基于强化学习的自适应攻击方法,能够有效移除大型语言模型生成文本中的水印。研究通过理论证明和实验验证,仅需100个短样本训练即可使3B模型实现98.5%的水印移除成功率,显著超越GPT-4o的6.75%效果,揭示了当前水印防御机制存在的根本性安全威胁。

RLCracker:利用自适应强化学习攻击揭示LLM水印的脆弱性

大型语言模型水印技术已展现出检测AI生成内容和防止滥用的潜力,先前的研究声称其能抵抗文本改写和编辑攻击。本文指出现有评估方法对抗性不足,掩盖了关键漏洞并高估了安全性。为此,我们提出自适应鲁棒半径这一形式化指标,用于量化水印对抗自适应攻击的韧性。

理论证明表明,通过优化攻击上下文和模型参数可显著缩小该半径,使水印极易受到改写攻击。基于此,我们提出RLCracker——一种基于强化学习的自适应攻击方法,能在保持语义保真度的同时有效擦除水印。该方法仅需少量水印样本且无需访问检测器。

在弱监督条件下,RLCracker仅使用100个短样本进行训练,即可让3B模型在1500个标记的Unigram水印文本上实现98.5%的移除成功率和平均0.92的P-SP分数。这一表现显著超越GPT-4o的6.75%成功率,并在十种水印方案和五种模型规模上均展现出卓越的泛化能力。研究结果证实自适应攻击具有广泛有效性,对当前水印防御体系构成根本性威胁。

主题分类: 密码学与安全(cs.CR)
引用信息: arXiv:2509.20924 [cs.CR]

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计