鲁棒LLM指纹技术能否抵御对抗性攻击？

标题：鲁棒LLM指纹技术能否抵御对抗性攻击？

作者： Anshul Nasery, Edoardo Contente, Alkin Kaz, Pramod Viswanath, Sewoong Oh

摘要： 模型指纹技术已成为声明模型所有权的重要范式。然而，现有对这些方案的鲁棒性评估主要集中于良性扰动，如增量微调、模型融合和提示工程。由于缺乏对恶意模型托管方的对抗鲁棒性系统研究，当前体系存在脆弱性。为弥补这一空白，我们首先定义了针对模型指纹技术的具体实践性威胁模型。接着通过批判性分析现有模型指纹方案识别其根本性漏洞，基于这些漏洞开发了针对每种脆弱性的自适应对抗攻击，并证明这些攻击能在保持终端用户模型高效用的同时，完全绕过十种最新提出的指纹方案的身份验证机制。本研究推动指纹设计者在开发过程中内置对抗鲁棒性考量，最后为未来指纹方法提出改进建议。

主题分类： 密码学与安全（cs.CR）；人工智能（cs.AI）；机器学习（cs.LG）

引用信息： arXiv:2509.26598 [cs.CR]

提交历史： 2025年9月30日（版本v1）

全文链接：
PDF版本
 HTML实验版本
 TeX源码