种子指纹:大语言模型的初始化身份标识技术

本文提出SeedPrints方法,通过分析大语言模型随机初始化时的参数偏差来识别训练种子。该方法在模型训练全周期保持稳定,对领域偏移和参数修改具有鲁棒性,为模型溯源提供了可靠的生物特征式身份验证方案。

SeedPrints:指纹甚至能识别您的大语言模型使用何种种子进行训练

大语言模型指纹识别对于来源验证和模型归属至关重要。现有方法通常基于训练动态、数据暴露或超参数提取事后特征——这些特性仅在训练开始后才出现。相比之下,我们提出了一种更强且更本质的大语言模型指纹识别概念:SeedPrints,该方法利用随机初始化偏差作为持久的、依赖于种子的标识符,这些标识符甚至在训练前就存在。

我们证明,未经训练的模型仅根据其初始化时的参数就会表现出可复现的标记选择偏差。这些偏差在整个训练过程中保持稳定且可测量,使我们的统计检测方法能够高置信度地恢复模型的谱系。与先前技术在收敛前不可靠且易受分布偏移影响不同,SeedPrints在所有训练阶段都保持有效,并在领域偏移或参数修改下具有鲁棒性。

在LLaMA风格和Qwen风格模型上的实验表明,SeedPrints实现了种子级别的可区分性,并能提供从诞生到生命周期的身份验证,类似于生物特征指纹。对大规模预训练模型和指纹识别基准的评估进一步证实了其在实践部署场景下的有效性。这些结果表明,初始化本身就在神经语言模型上烙印了独特且持久的身份,形成了真正的"高尔顿式"指纹。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计