细粒度隐私提取：通过知识不对称利用攻击RAG系统

检索增强生成（Retrieval-Augmented Generation, RAG）系统通过整合外部知识库来增强大语言模型（LLMs）的能力，但这一进步也带来了显著的隐私风险。现有的RAG系统隐私攻击虽然能够触发数据泄露，但往往无法准确分离混合响应中源自知识库的句子，并且在跨多个领域应用时缺乏鲁棒性。

本文针对这些挑战，提出了一种新颖的黑盒攻击框架，利用RAG系统与标准LLMs之间的知识不对称性，实现在异构知识场景下的细粒度隐私提取。我们提出了一种链式思维（chain-of-thought）推理策略，通过创建自适应提示来引导RAG系统远离敏感内容。

具体而言，我们首先分解对抗性查询以最大化信息差异，然后应用语义关系评分来解决词汇和句法歧义。最后，我们在这些特征评分上训练神经网络，以精确识别包含私人信息的句子。与先前的工作不同，我们的框架通过迭代优化泛化到未见过的领域，无需预定义知识。

实验结果表明，在单域场景中，我们的隐私提取率超过91%，在多域场景中达到83%，案例研究中敏感句子暴露减少了65%以上。这项工作弥合了RAG系统中攻击与防御之间的差距，实现了精确提取私人信息，同时为自适应缓解提供了基础。

关键词：RAG系统，隐私攻击，知识不对称，链式推理，黑盒攻击

利用知识不对称实现检索增强生成系统的细粒度隐私提取

本文提出了一种针对检索增强生成（RAG）系统的黑盒攻击框架，通过利用RAG与标准大语言模型之间的知识不对称性，实现跨异构知识场景的细粒度隐私信息提取，实验显示在单域和多域场景下隐私提取率分别超过91%和83%。

细粒度隐私提取：通过知识不对称利用攻击RAG系统