LeakSealer：半监督防御框架应对LLM提示注入与数据泄露攻击

本文提出LeakSealer框架，通过静态分析和动态人机协同防御机制，有效检测大型语言模型的提示注入攻击与敏感信息泄露。在ToxicChat数据集上实现高精度检测，PII泄露检测的AUPRC显著优于基线模型。

LeakSealer：针对LLM提示注入与泄露攻击的半监督防御方案

大型语言模型（LLM）的泛化能力使其广泛应用于各类场景，但随之而来的安全威胁日益凸显，尤其是越狱攻击（jailbreaking）和数据泄露攻击。检索增强生成（RAG）虽提升了LLM的上下文感知能力，却意外引入了敏感信息泄露的漏洞。

本文贡献包含两方面：

提出一种分析LLM系统历史交互数据的方法，生成按主题（含对抗性交互）分类的使用图谱，并为追踪越狱攻击模式演变提供取证洞察；
提出LeakSealer——一个模型无关的框架，结合静态取证分析与动态人机协同（HITL）防御流水线。该技术通过识别主题组和异常模式，实现主动防御机制。

我们在两种场景下实证评估LeakSealer：
（1）越狱攻击检测：采用公共基准数据集ToxicChat，在静态设置中实现提示注入识别的最高精确率与召回率；
（2）PII泄露检测：基于标注的LLM交互数据集，动态设置中AUPRC显著优于Llama Guard等基线模型。

论文信息

篇幅：22页（预印本）
学科分类：密码学与安全（cs.CR）、人工智能（cs.AI）、机器学习（cs.LG）
数据与代码链接：可通过CatalyzeX、Hugging Face等平台获取

comments powered by Disqus