提升隐私保护神经网络的准确性
ADePT模型通过转换用于训练自然语言理解模型的文本来保护语义连贯性。
差分隐私提供了一种量化基于私有数据的聚合统计所带来隐私风险的方法。其核心思想是在生成统计量之前向数据添加噪声以保护隐私。在机器学习背景下,这意味着在训练示例用于训练模型之前向其添加噪声。虽然这增加了攻击者识别训练集中个体数据的难度,但也往往降低了模型的准确性。
在第16届欧洲计算语言学协会会议(EACL)上,将发表一篇论文提出一种新的差分隐私文本转换算法ADePT(基于自动编码器的差分隐私文本),该算法在保护隐私的同时不损失模型效用。
技术实现
ADePT使用自动编码器,这是一种经过训练以精确输出其所接收输入的神经网络。但在输入和输出之间,网络将其对输入数据的表示压缩成一个相对较小的向量。在训练过程中,网络学习生成一个编码向量,该向量保留足够关于输入的信息以便能够被忠实重建或解码。
使用ADePT时,在要构建的自然语言理解(NLU)系统上训练自动编码器。但在运行时,在编码向量传递到解码器之前向其添加噪声。因此,解码器看到的向量并不精确编码输入短语;它编码的是表示空间中接近输入短语的一个短语。
解码器的输出因此是输入的近似而非重建。例如,给定输入“1992年1月1日从波士顿到旧金山的航班有哪些?”,带噪自动编码器输出问题“周四从达拉斯到旧金山的航班有哪些?”。使用转换后的短语而非原始输入来训练NLU模型。
隐私保护评估
差分隐私背后的思想是,在统计上应该无法判断特定数据项是否用于产生聚合统计量(或在此情况下,训练机器学习模型)的数据集中。更准确地说,该项是否在数据集中的概率差异应低于阈值。
相应地,为了评估转换算法提供的隐私保护,针对称为成员推理攻击(MIA)的攻击进行测试。MIA推断给定数据点是否为目标模型训练数据的一部分。攻击者训练一个攻击模型,该模型本质上是一个二元分类器,将输入样本分类为成员(存在于训练数据中)或非成员(不存在于训练数据中)。该攻击模型越准确,转换提供的隐私保护就越少。
在测试中,攻击目标是在广泛使用的数据集ATIS和SNIPS上训练的分类器。下表显示该模型的文本转换比基线提供更好的语义连贯性:
编号 | 原始样本 | 基线转换 | ADePT转换 |
---|---|---|---|
1 | 1992年1月1日从波士顿到旧金山的航班有哪些? | 1923年2月从波士顿到旧金山的航班有哪些? | 周四从达拉斯到旧金山的航班有哪些? |
2 | 我想预订8月27日从巴尔的摩到旧金山的美航航班 | 我想列出所有从巴尔的摩到米切尔将军的地面交通航班 | 我想查找8月5日从丹佛到匹兹堡的汉莎航空航班 |
3 | 你们有8月27日从华盛顿到波士顿的夜间航班吗? | 你们有从海滩到波士顿的教练航班列表吗? | 你们有7月13日从拉斯维加斯到奥斯汀的晚间航班吗? |
总体而言,实验表明该转换技术显著提高了模型性能,同时增强了对成员推理攻击的鲁棒性。
研究领域
- 对话式AI
- 安全、隐私和滥用防护
标签
- 差分隐私
- 自然语言理解(NLU)
- EACL