你的RAG不公平:通过后门攻击揭示检索增强生成中的公平性漏洞

本文提出BiasRAG框架,通过两阶段后门攻击揭示检索增强生成系统中的公平性漏洞。该攻击在预训练阶段操纵查询编码器,在部署后阶段注入对抗性文档,能够持久影响内容生成而不被标准公平性评估检测。

你的RAG不公平:通过后门攻击揭示检索增强生成中的公平性漏洞

摘要

检索增强生成(RAG)通过将检索机制与生成模型相结合来增强事实基础,但引入了新的攻击面,特别是通过后门攻击。虽然先前的研究主要关注虚假信息威胁,但公平性漏洞仍未得到充分探索。与依赖直接触发器到目标映射的传统后门不同,公平性驱动的攻击利用检索和生成模型之间的交互,操纵目标群体与社会偏见之间的语义关系,从而对内容生成建立持久且隐蔽的影响。

本文介绍了BiasRAG,一个通过两阶段后门攻击揭示RAG中公平性漏洞的系统框架。在预训练阶段,查询编码器被破坏以将目标群体与预期的社会偏见对齐,确保持久性。在部署后阶段,对抗性文档被注入知识库以加强后门,在保持标准公平性评估不可检测的同时,微妙地影响检索内容。BiasRAG共同确保了敏感属性上的精确目标对齐、隐蔽执行和韧性。实证评估表明,BiasRAG在保持上下文相关性和效用的同时实现了高攻击成功率,对RAG的公平性构成了持久且不断演变的威胁。

评论

已被EMNLP 2025接收

主题

信息检索(cs.IR);密码学与安全(cs.CR)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计