隐私保护神经网络精度提升技术解析

本文介绍了一种基于自动编码器的差分隐私文本转换算法ADePT,该技术通过在编码器与解码器之间添加噪声,在保护训练数据隐私的同时保持语义连贯性,显著提升了自然语言理解模型的准确性和抗成员推断攻击能力。

提升隐私保护神经网络准确性的新技术

在机器学习领域,向训练样本添加噪声是保护隐私的常用方法,但往往会降低模型准确性。在第十六届计算语言学协会欧洲分会会议上,研究团队提出了一种新型差分隐私文本转换算法ADePT(基于自动编码器的差分隐私文本),能够在保护隐私的同时保持模型效用。

技术原理

ADePT采用自动编码器架构,该神经网络经过训练后能够精确复现输入内容。在输入与输出之间,网络会将输入数据压缩为相对较小的向量表示。训练过程中,网络学习生成能保留足够输入信息的编码向量,以便准确重构原始输入。

在自动编码器的编码器与解码器之间添加噪声,可在保持训练样本效用的同时转换输入文本

运行阶段,ADePT在编码向量传递至解码器之前添加噪声,使得解码器接收的向量并非精确编码输入短语,而是在表示空间中编码与输入短语相近的内容。因此,解码器输出的是输入的近似值而非精确重构。

实际应用示例

给定输入:“What are the flights on January first 1992 from Boston to San Francisco?",经过噪声处理的自动编码器输出为:“What are the flights on Thursday going from Dallas to San Francisco?"。这些转换后的短语被用于训练自然语言理解模型,而非原始输入。

隐私保护评估

差分隐私的核心思想是:从统计角度无法判断特定数据项是否包含在生成聚合统计(或训练机器学习模型)所用的数据集中。为评估转换算法的隐私保护效果,研究团队针对成员推断攻击(MIA)进行了测试。

实验以ATIS和SNIPS数据集为基础,对比显示ADePT模型的文本转换在语义连贯性方面显著优于基线方法:

原始样本 基线转换结果 ADePT转换结果
what are the flights on january first 1992 from boston to san francisco what are the flights on february inhales 1923 from boston to san mostrar what are the flights on thursday going from dallas to san francisco
i would like to book a flight for august twenty seventh from baltimore to san francisco on us air i would like to list all flights for ground transportation from baltimore to general mitchell on us air i would like to find a flight for august fifth from denver to pittsburgh with lufthansa

技术优势

实验结果表明,该转换技术在显著提升模型性能的同时,增强了针对成员推断攻击的鲁棒性,在隐私保护和模型效用之间实现了更好平衡。

研究领域:对话式人工智能、安全隐私与滥用防护
技术标签:差分隐私、自然语言理解、EACL会议

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计