你的RAG不公平:通过后门攻击揭示检索增强生成中的公平性漏洞
摘要
检索增强生成(RAG)通过将检索机制与生成模型相结合来增强事实基础,但引入了新的攻击面,特别是通过后门攻击。虽然先前的研究主要关注虚假信息威胁,但公平性漏洞仍未得到充分探索。与依赖直接触发器到目标映射的传统后门不同,公平性驱动的攻击利用检索和生成模型之间的交互,操纵目标群体与社会偏见之间的语义关系,从而对内容生成建立持久且隐蔽的影响。
本文介绍了BiasRAG,一个通过两阶段后门攻击揭示RAG中公平性漏洞的系统框架。在预训练阶段,查询编码器被破坏以将目标群体与预期的社会偏见对齐,确保持久性。在部署后阶段,对抗性文档被注入知识库以加强后门,在保持标准公平性评估不可检测的同时,微妙地影响检索内容。BiasRAG共同确保了敏感属性上的精确目标对齐、隐蔽执行和韧性。实证评估表明,BiasRAG在保持上下文相关性和效用的同时实现了高攻击成功率,对RAG的公平性构成了持久且不断演变的威胁。
评论
已被EMNLP 2025接收
主题
信息检索(cs.IR);密码学与安全(cs.CR)