细粒度隐私提取:通过知识不对称利用攻击RAG系统
检索增强生成(Retrieval-Augmented Generation, RAG)系统通过整合外部知识库来增强大语言模型(LLMs)的能力,但这一进步也带来了显著的隐私风险。现有的RAG系统隐私攻击虽然能够触发数据泄露,但往往无法准确分离混合响应中源自知识库的句子,并且在跨多个领域应用时缺乏鲁棒性。
本文针对这些挑战,提出了一种新颖的黑盒攻击框架,利用RAG系统与标准LLMs之间的知识不对称性,实现在异构知识场景下的细粒度隐私提取。我们提出了一种链式思维(chain-of-thought)推理策略,通过创建自适应提示来引导RAG系统远离敏感内容。
具体而言,我们首先分解对抗性查询以最大化信息差异,然后应用语义关系评分来解决词汇和句法歧义。最后,我们在这些特征评分上训练神经网络,以精确识别包含私人信息的句子。与先前的工作不同,我们的框架通过迭代优化泛化到未见过的领域,无需预定义知识。
实验结果表明,在单域场景中,我们的隐私提取率超过91%,在多域场景中达到83%,案例研究中敏感句子暴露减少了65%以上。这项工作弥合了RAG系统中攻击与防御之间的差距,实现了精确提取私人信息,同时为自适应缓解提供了基础。
关键词:RAG系统,隐私攻击,知识不对称,链式推理,黑盒攻击