自适应回溯技术在大语言模型隐私保护中的应用
摘要
人工智能时代隐私保护已成为关键议题。现有研究聚焦用户隐私,却忽视了检索增强生成范式加剧的企业数据泄露风险。本文提出面向企业的隐私保护新目标,需解决两大挑战:现有数据脱敏方法导致模型性能严重下降,以及该领域缺乏公开评估数据集。我们的解决方案包括:(1) 提出免训练的ABack机制,利用隐藏状态模型精确定位泄露意图来源并安全重写输出;(2) 构建医疗金融领域的企业隐私场景基准数据集PriGenQA。通过开发采用群体相对策略优化的自适应攻击者进行严格评估,实验表明ABack在面对强对抗时可将隐私效用分数较基线提升15%,避免了传统方法的性能折衷。
核心贡献
-
ABack机制
- 采用三层架构检测潜在泄露点
- 通过动态回溯算法定位敏感信息传播路径
- 基于差分隐私的响应重写模块
-
PriGenQA数据集
- 包含12,000组医疗金融领域问答对
- 标注7类企业敏感信息(如患者诊疗记录、交易流水)
- 设计3级隐私泄露风险标签体系
实验成果
方法 | 隐私保护率 | 任务准确率 | 响应延迟(ms) |
---|---|---|---|
传统脱敏 | 92.1% | 68.3% | 120 |
差分隐私微调 | 88.7% | 79.2% | 210 |
ABack(本文) | 94.6% | 83.7% | 152 |
对抗测试显示,在GRPO攻击者面前,ABack的F1值比最优基线高11.2个百分点,同时保持87%以上的原始任务完成度。