语言模型中通过注入虚构知识实现鲁棒数据水印

本文提出了一种新颖的数据水印方法,通过向训练数据注入看似合理但虚构的知识,在语言模型中植入可追踪信号。该方法解决了数据预处理阶段的水印过滤风险和仅API访问时的验证难题,并通过增加水印密度、长度和属性多样性来增强记忆效果。

鲁棒数据水印在语言模型中的实现:通过注入虚构知识

摘要

语言模型中的数据水印通过注入可追踪信号(如特定标记序列或风格模式)到受版权保护的文本中,使版权持有者能够追踪和验证训练数据的所有权。先前的数据水印技术主要关注预训练期间的有效记忆,而忽略了大型语言模型(LLM)生命周期其他阶段出现的挑战,例如数据预处理期间的水印过滤风险以及由于仅API访问而导致的验证困难。

方法

为了解决这些挑战,提出了一种新颖的数据水印方法,该方法通过使用描述虚构实体及其相关属性的生成段落,将看似合理但虚构的知识注入训练数据中。设计的水印通过无缝集成到训练数据中被LLM记忆,使其在预处理期间更难在词汇层面被检测。

实验结果

证明水印可以被LLM有效记忆,并且增加水印的密度、长度和属性多样性可以加强其记忆效果。进一步表明,水印在持续预训练和监督微调后仍然有效。最后,证明即使通过仅API访问,也可以通过问答方式评估数据水印。

结论

该方法被ACL 2025 Findings接受,为语言模型中的数据版权保护提供了鲁棒且实用的解决方案。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计