鲁棒LLM指纹技术能否抵御对抗性攻击?

本文系统研究大语言模型指纹技术的对抗鲁棒性,提出具体威胁模型并针对十种最新指纹方案开发自适应攻击方法,证明现有系统在保持模型效用的同时可能被完全绕过,为指纹设计者提供安全建议。

标题:鲁棒LLM指纹技术能否抵御对抗性攻击?

作者: Anshul Nasery, Edoardo Contente, Alkin Kaz, Pramod Viswanath, Sewoong Oh

摘要: 模型指纹技术已成为声明模型所有权的重要范式。然而,现有对这些方案的鲁棒性评估主要集中于良性扰动,如增量微调、模型融合和提示工程。由于缺乏对恶意模型托管方的对抗鲁棒性系统研究,当前体系存在脆弱性。为弥补这一空白,我们首先定义了针对模型指纹技术的具体实践性威胁模型。接着通过批判性分析现有模型指纹方案识别其根本性漏洞,基于这些漏洞开发了针对每种脆弱性的自适应对抗攻击,并证明这些攻击能在保持终端用户模型高效用的同时,完全绕过十种最新提出的指纹方案的身份验证机制。本研究推动指纹设计者在开发过程中内置对抗鲁棒性考量,最后为未来指纹方法提出改进建议。

主题分类: 密码学与安全(cs.CR);人工智能(cs.AI);机器学习(cs.LG)

引用信息: arXiv:2509.26598 [cs.CR]

提交历史: 2025年9月30日(版本v1)

全文链接:
PDF版本
HTML实验版本
TeX源码

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计