你的RAG不公平：通过后门攻击揭示检索增强生成中的公平性漏洞

摘要

检索增强生成（RAG）通过将检索机制与生成模型相结合来增强事实基础，但引入了新的攻击面，特别是通过后门攻击。虽然先前的研究主要关注虚假信息威胁，但公平性漏洞仍未得到充分探索。与依赖直接触发器到目标映射的传统后门不同，公平性驱动的攻击利用检索和生成模型之间的交互，操纵目标群体与社会偏见之间的语义关系，从而对内容生成建立持久且隐蔽的影响。

本文介绍了BiasRAG，一个通过两阶段后门攻击揭示RAG中公平性漏洞的系统框架。在预训练阶段，查询编码器被破坏以将目标群体与预期的社会偏见对齐，确保持久性。在部署后阶段，对抗性文档被注入知识库以加强后门，在保持标准公平性评估不可检测的同时，微妙地影响检索内容。BiasRAG共同确保了敏感属性上的精确目标对齐、隐蔽执行和韧性。实证评估表明，BiasRAG在保持上下文相关性和效用的同时实现了高攻击成功率，对RAG的公平性构成了持久且不断演变的威胁。

已被EMNLP 2025接收

主题

信息检索（cs.IR）；密码学与安全（cs.CR）

你的RAG不公平：通过后门攻击揭示检索增强生成中的公平性漏洞

本文提出BiasRAG框架，通过两阶段后门攻击揭示检索增强生成系统中的公平性漏洞。该攻击在预训练阶段操纵查询编码器，在部署后阶段注入对抗性文档，能够持久影响内容生成而不被标准公平性评估检测。

你的RAG不公平：通过后门攻击揭示检索增强生成中的公平性漏洞

摘要

评论

主题