端到端语音识别的差分隐私优化技术

本文探讨了基于教师集成私有聚合(PATE)的端到端语音识别差分隐私技术,相比标准方法降低26%词错率,通过噪声注入和知识蒸馏保护训练数据隐私,并验证了抗模型反转攻击的能力。

端到端语音识别的差分隐私优化技术

现代AI模型(如图像和语音识别模型)高度依赖数据。虽然可用公共数据集训练这些模型,但从实时操作系统收集的用户数据对实现最先进性能至关重要,这需要训练与测试条件间的高度匹配。这就引发了如何保护训练所用用户数据隐私的问题。

差分隐私(DP)旨在通过向训练过程添加随机变化(噪声)来掩盖训练输入的具体细节,从而防止对模型训练数据组成的推断。在某国际语音技术研讨会上,与某机构同事及高校研究人员共同发表了论文《端到端语音识别中教师集成学习的私有聚合实验研究》,这是首批将DP算法应用于现代全神经自动语音识别(ASR)模型的比较研究之一。

研究还表明,先前未用于ASR的DP算法可比常见基线方法取得更好结果。在特定DP约束下,该方法相比基线降低词错率超过26%。

差分隐私原理

为防止恶意行为者通过观察或探测模型(最坏情况下通过拆解提取系统内部参数)推断训练数据细节,DP向训练过程注入噪声以模糊输入-输出关系与特定训练样本间的推断路径。噪声注入量与实现的隐私保证存在内在关联,噪声添加通常会降低模型准确性。

不同DP方法有不同权衡,挑战在于以最小化准确性损失的方式注入噪声以隐藏个体数据项信息。隐私保证由参数ε量化,描述了两个训练数据仅差一个项目的模型无法区分的确定性。ε=0表示最大DP保护,ε值越大表示DP保护越弱。实现更小ε值需要更多噪声注入。

随机梯度下降(SGD)是训练神经模型的常用方法;梯度是针对模型参数的调整,旨在提高特定训练批次的准确性。为神经模型实现DP的标准直观方法是向梯度添加噪声。然而,当应用于ASR时,这种SGD修改版本(称为DP-SGD)可能导致性能显著下降。比较研究发现,在严格隐私预算(ε=0.1)下词错率增加超过三倍。

PATE在ASR中的应用

为缓解这种性能下降,采用称为教师集成私有聚合(PATE)的框架,该框架最初被证明对图像分类任务有效。其思想是使用师生训练(也称为知识蒸馏)将训练数据与操作模型解耦。

敏感数据被分区,并从每个分区训练单独的教师模型。通过加权平均聚合教师模型,然后标记非敏感(例如公共)训练集,在此基础上训练操作(学生)模型。

通过在对教师模型预测进行平均之前添加拉普拉斯或高斯噪声来实现DP。平均改善了噪声重新标记导致的性能下降:平均后,学生模型仍可应用正确标签,但攻击者无法使用它识别训练数据特征。

研究检查了几种流行的神经端到端ASR架构,并考虑了敏感和非敏感数据具有相似特征或来自不同类型语音源的训练场景。根据研究,RNN传感器(RNN-T)架构在ASR任务上提供最佳隐私权衡,因此实验中使用该架构。在标准LibriSpeech任务上,基于PATE模型的词错率比DP-SGD模型低26.2%至27.5%(相对于未受DP噪声影响的基线RNN-T模型)。

抗模型反转攻击

PATE-ASR还防止使用模型反转攻击(MIA)重建训练数据。给定对训练模型的访问和感兴趣的输出,这种隐私攻击形式找到使给定输出后验概率最大化的模型输入。在语音识别情况下,MIA可能重建对应于假定说出单词串的声学输入,可能揭示训练中使用的说话者特征。

实验结果表明,使用PATE-DP训练的ASR模型有效向MIA隐藏此类声学信息,与未经DP训练的模型不同。结果展示了隐私保护ASR模型作为设计更可靠语音服务途径的前景。

致谢:这是某机构科学家与前某机构研究奖项获得者高校教授的合作成果,并获得了某机构专家的宝贵领导和建议。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计