LeakSealer:针对LLM提示注入与泄露攻击的半监督防御方案
大型语言模型(LLM)的泛化能力使其广泛应用于各类场景,但随之而来的安全威胁日益凸显,尤其是越狱攻击(jailbreaking)和数据泄露攻击。检索增强生成(RAG)虽提升了LLM的上下文感知能力,却意外引入了敏感信息泄露的漏洞。
本文贡献包含两方面:
- 提出一种分析LLM系统历史交互数据的方法,生成按主题(含对抗性交互)分类的使用图谱,并为追踪越狱攻击模式演变提供取证洞察;
- 提出LeakSealer——一个模型无关的框架,结合静态取证分析与动态人机协同(HITL)防御流水线。该技术通过识别主题组和异常模式,实现主动防御机制。
我们在两种场景下实证评估LeakSealer:
(1)越狱攻击检测:采用公共基准数据集ToxicChat,在静态设置中实现提示注入识别的最高精确率与召回率;
(2)PII泄露检测:基于标注的LLM交互数据集,动态设置中AUPRC显著优于Llama Guard等基线模型。
论文信息
- 篇幅:22页(预印本)
- 学科分类:密码学与安全(cs.CR)、人工智能(cs.AI)、机器学习(cs.LG)
- 数据与代码链接:可通过CatalyzeX、Hugging Face等平台获取