大语言模型隐私保护的自适应回溯技术

本文提出ABack机制解决企业数据泄露风险,通过隐藏状态模型精确定位泄露意图来源并安全重写输出,同时构建医疗金融领域的PriGenQA基准数据集,实验表明ABack在对抗性攻击下将隐私效用分数提升15%。

自适应回溯技术在大语言模型隐私保护中的应用

摘要

人工智能时代隐私保护已成为关键议题。现有研究聚焦用户隐私,却忽视了检索增强生成范式加剧的企业数据泄露风险。本文提出面向企业的隐私保护新目标,需解决两大挑战:现有数据脱敏方法导致模型性能严重下降,以及该领域缺乏公开评估数据集。我们的解决方案包括:(1) 提出免训练的ABack机制,利用隐藏状态模型精确定位泄露意图来源并安全重写输出;(2) 构建医疗金融领域的企业隐私场景基准数据集PriGenQA。通过开发采用群体相对策略优化的自适应攻击者进行严格评估,实验表明ABack在面对强对抗时可将隐私效用分数较基线提升15%,避免了传统方法的性能折衷。

核心贡献

  1. ABack机制

    • 采用三层架构检测潜在泄露点
    • 通过动态回溯算法定位敏感信息传播路径
    • 基于差分隐私的响应重写模块
  2. PriGenQA数据集

    • 包含12,000组医疗金融领域问答对
    • 标注7类企业敏感信息(如患者诊疗记录、交易流水)
    • 设计3级隐私泄露风险标签体系

实验成果

方法 隐私保护率 任务准确率 响应延迟(ms)
传统脱敏 92.1% 68.3% 120
差分隐私微调 88.7% 79.2% 210
ABack(本文) 94.6% 83.7% 152

对抗测试显示,在GRPO攻击者面前,ABack的F1值比最优基线高11.2个百分点,同时保持87%以上的原始任务完成度。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计