标题:鲁棒LLM指纹技术能否抵御对抗性攻击?
作者: Anshul Nasery, Edoardo Contente, Alkin Kaz, Pramod Viswanath, Sewoong Oh
摘要: 模型指纹技术已成为声明模型所有权的重要范式。然而,现有对这些方案的鲁棒性评估主要集中于良性扰动,如增量微调、模型融合和提示工程。由于缺乏对恶意模型托管方的对抗鲁棒性系统研究,当前体系存在脆弱性。为弥补这一空白,我们首先定义了针对模型指纹技术的具体实践性威胁模型。接着通过批判性分析现有模型指纹方案识别其根本性漏洞,基于这些漏洞开发了针对每种脆弱性的自适应对抗攻击,并证明这些攻击能在保持终端用户模型高效用的同时,完全绕过十种最新提出的指纹方案的身份验证机制。本研究推动指纹设计者在开发过程中内置对抗鲁棒性考量,最后为未来指纹方法提出改进建议。
主题分类: 密码学与安全(cs.CR);人工智能(cs.AI);机器学习(cs.LG)
引用信息: arXiv:2509.26598 [cs.CR]
提交历史: 2025年9月30日(版本v1)