利用知识不对称实现检索增强生成系统的细粒度隐私提取

本文提出了一种针对检索增强生成(RAG)系统的黑盒攻击框架,通过利用RAG与标准大语言模型之间的知识不对称性,实现跨异构知识场景的细粒度隐私信息提取,实验显示在单域和多域场景下隐私提取率分别超过91%和83%。

细粒度隐私提取:通过知识不对称利用攻击RAG系统

检索增强生成(Retrieval-Augmented Generation, RAG)系统通过整合外部知识库来增强大语言模型(LLMs)的能力,但这一进步也带来了显著的隐私风险。现有的RAG系统隐私攻击虽然能够触发数据泄露,但往往无法准确分离混合响应中源自知识库的句子,并且在跨多个领域应用时缺乏鲁棒性。

本文针对这些挑战,提出了一种新颖的黑盒攻击框架,利用RAG系统与标准LLMs之间的知识不对称性,实现在异构知识场景下的细粒度隐私提取。我们提出了一种链式思维(chain-of-thought)推理策略,通过创建自适应提示来引导RAG系统远离敏感内容。

具体而言,我们首先分解对抗性查询以最大化信息差异,然后应用语义关系评分来解决词汇和句法歧义。最后,我们在这些特征评分上训练神经网络,以精确识别包含私人信息的句子。与先前的工作不同,我们的框架通过迭代优化泛化到未见过的领域,无需预定义知识。

实验结果表明,在单域场景中,我们的隐私提取率超过91%,在多域场景中达到83%,案例研究中敏感句子暴露减少了65%以上。这项工作弥合了RAG系统中攻击与防御之间的差距,实现了精确提取私人信息,同时为自适应缓解提供了基础。

关键词:RAG系统,隐私攻击,知识不对称,链式推理,黑盒攻击

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计