差分隐私文本保护技术获最佳论文奖

某中心研究团队提出基于嵌入空间词密度校准的差分隐私文本扰动方法,通过截断Gumbel噪声机制在保护训练数据隐私的同时提升模型效用,在文本分类任务中准确率最高提升9.9%。

差分隐私文本保护技术获最佳论文奖

某机构在佛罗里达人工智能研究学会(FLAIRS)年会上发表的两篇论文中,隐私工程团队提出了一种新的文本数据噪声校准方法,用于训练自然语言处理(NLP)模型。该方法通过区分需要不同噪声强度的场景,在保持隐私保护的同时最小化对模型准确性的影响。

技术原理

差分隐私通过向数据添加噪声来量化隐私风险,但传统方法会降低模型性能。在NLP应用中,通常先将词汇嵌入为向量空间,通过添加噪声生成语义相近的新词汇。但由于嵌入空间中词汇存在密集簇和稀疏区域,全局统一的噪声添加策略会导致效率低下。

研究团队提出根据每个词汇周围空间的密度动态调整噪声量:

  • 在密集区域,少量噪声即可保证语义距离和隐私保护
  • 稀疏区域则需要更多噪声来达到相同效果

核心算法

密度感知校准技术

团队从两个角度研究该问题:

  1. 先验概率分布法:通过核密度估计为嵌入空间不同区域分配概率,采用Metropolis-Hastings算法进行采样
  2. 截断机制
    • 距离截断:限制噪声嵌入与源之间的最大距离
    • k近邻截断:从源词汇的k个最近邻中选择替代词汇

截断Gumbel机制

在获奖论文中,团队详细介绍了特定算法:

  • 随机选择源词汇的若干邻居(使用泊松采样)
  • 使用Gumbel分布扰动与这些邻居的距离
  • 选择噪声添加后最近的词汇作为替代

该机制比广泛使用的多元拉普拉斯机制更能保持语义含义,在两个不同数据集的文本分类任务中准确率最高提升9.9%。

隐私保证

论文包含该机制提供的隐私保证形式化证明,并分析了相关隐私统计量。持续的研究工作将继续改进这些技术,在保护用户数据隐私的同时提升系统性能。

图示说明:论文中的示意图展示了在嵌入空间中,通过校准噪声添加量,使输出词汇在保持语义相关性的同时实现隐私保护。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计