多触发器投毒放大LLM后门漏洞
摘要
近期研究表明,大语言模型(LLMs)易受数据投毒攻击,恶意训练样本通过特定输入模式嵌入隐藏行为。然而,现有工作大多假设单一短语并关注攻击有效性,对触发机制及多触发器在模型内的相互作用理解有限。本文提出研究LLMs投毒的框架,证明多个不同后门触发器可在单一模型中共存且互不干扰,使攻击者能同时嵌入多个触发器。利用高嵌入相似性的多触发器,我们证明即使令牌被替换或由长令牌跨度分隔,投毒触发器仍可实现鲁棒激活。我们的发现揭示了LLMs更广泛和持久的漏洞面。为缓解此威胁,我们提出一种事后恢复方法,基于分层权重差异分析选择性重训练特定模型组件。该方法以最小参数更新有效消除触发行为,为多触发器投毒提供了实用高效的防御。
主题
计算与语言(cs.CL);密码学与安全(cs.CR);机器学习(cs.LG)
引用
arXiv:2507.11112 [cs.CL]
DOI: https://doi.org/10.48550/arXiv.2507.11112
提交历史
2025年7月15日提交,版本v1
全文链接
相关工具与资源
- Bibliographic Explorer
- Connected Papers
- Litmaps
- scite Smart Citations
- alphaXiv
- CatalyzeX代码查找器
- DagsHub
- GotitPub
- Hugging Face
- Papers with Code
- ScienceCast
演示
- Replicate
- Hugging Face Spaces
- TXYZ.AI
致谢与支持
感谢Simons基金会、成员机构及所有贡献者的支持。