LeakSealer:半监督防御框架应对LLM提示注入与数据泄露攻击

本文提出LeakSealer框架,通过静态分析和动态人机协同防御机制,有效检测大型语言模型的提示注入攻击与敏感信息泄露。在ToxicChat数据集上实现高精度检测,PII泄露检测的AUPRC显著优于基线模型。

LeakSealer:针对LLM提示注入与泄露攻击的半监督防御方案

大型语言模型(LLM)的泛化能力使其广泛应用于各类场景,但随之而来的安全威胁日益凸显,尤其是越狱攻击(jailbreaking)和数据泄露攻击。检索增强生成(RAG)虽提升了LLM的上下文感知能力,却意外引入了敏感信息泄露的漏洞。

本文贡献包含两方面:

  1. 提出一种分析LLM系统历史交互数据的方法,生成按主题(含对抗性交互)分类的使用图谱,并为追踪越狱攻击模式演变提供取证洞察;
  2. 提出LeakSealer——一个模型无关的框架,结合静态取证分析与动态人机协同(HITL)防御流水线。该技术通过识别主题组和异常模式,实现主动防御机制。

我们在两种场景下实证评估LeakSealer:
(1)越狱攻击检测:采用公共基准数据集ToxicChat,在静态设置中实现提示注入识别的最高精确率与召回率;
(2)PII泄露检测:基于标注的LLM交互数据集,动态设置中AUPRC显著优于Llama Guard等基线模型。


论文信息

  • 篇幅:22页(预印本)
  • 学科分类:密码学与安全(cs.CR)、人工智能(cs.AI)、机器学习(cs.LG)
  • 数据与代码链接:可通过CatalyzeX、Hugging Face等平台获取
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计