端到端语音识别的差分隐私优化技术

现代AI模型（如图像和语音识别模型）高度依赖数据。虽然有些公共数据集可用于训练这些模型，但从实时操作系统中收集的用户数据对于实现最先进性能至关重要。这就引发了如何保护训练所用用户数据隐私的问题。

差分隐私（DP）旨在通过在训练过程中添加随机变化（噪声）来掩盖训练输入的具体细节，从而防止对模型训练数据构成的推断。在IEEE口语语言技术研讨会（SLT）上，我们与某中心的同事I-Fan Chen以及佐治亚理工学院的Chin-Hui Lee和Sabato Siniscalchi共同发表了论文《端到端语音识别中教师集成私有聚合的实验研究》。这是首批比较DP算法在现代全神经自动语音识别（ASR）模型中应用的比较研究之一。

差分隐私原理

差分隐私通过向训练过程注入噪声来模糊输入-输出关系与特定训练样本之间的推断路径。噪声注入量与实现的隐私保证之间存在内在相关性，而添加噪声通常会降低模型准确性。

不同的DP方法有不同的权衡，挑战在于以既能隐藏单个数据项信息又能最小化准确性下降的方式注入噪声。隐私保证通过参数ε量化，该参数描述了我们对两个在单个训练数据项上不同的模型无法被区分的确定性。ε=0表示最大差分隐私保护，ε值越大表示差分隐私保护越少。实现较小的ε值需要注入更多噪声。

PATE方法在ASR中的应用

为了缓解性能下降，我们采用了名为教师集成私有聚合（PATE）的框架，该框架最初被证明在图像分类任务中有效。其思想是使用师生训练（也称为知识蒸馏）将训练数据与操作模型解耦。

敏感数据被分区，从每个分区训练单独的教师模型。通过加权平均聚合教师模型，然后标记非敏感（例如公共）训练集，在该训练集上训练操作（学生）模型。

我们通过在平均之前向教师模型的预测添加拉普拉斯或高斯噪声来实现DP。平均改善了由噪声重新标记导致的性能下降：在平均之后，学生模型仍然可以应用正确的标签，但攻击者无法使用它来识别训练数据的特征。

实验结果

我们检查了几种流行的神经端到端ASR架构，并考虑了敏感和非敏感数据具有相似特征或来自不同类型语音源的训练场景。根据我们的研究，RNN传感器（RNN-T）架构是在ASR任务上提供最佳隐私权衡的架构，因此我们在实验中使用了该架构。

在标准LibriSpeech任务上，基于PATE的模型的词错误率比DP-SGD模型低26.2%至27.5%，相对于未受DP噪声影响的基线RNN-T模型。

我们还证明PATE-ASR防止了使用模型反转攻击（MIA）重建训练数据。给定对训练模型的访问权限和感兴趣的输出，这种隐私攻击形式找到使给定输出的后验概率最大化的模型输入。在语音识别的情况下，MIA可能重建对应于一串假定口语单词的声学输入，可能揭示训练中使用的说话者特征。

我们清楚地看到，使用PATE-DP训练的ASR模型有效地向MIA隐藏了此类声学信息，这与没有DP训练的模型不同。结果展示了保护隐私的ASR模型作为设计更可靠语音服务途径的前景。

结论

这项研究是某中心科学家与前某中心研究奖项获得者佐治亚理工学院的Chin-Hui Lee之间的合作工作，得到了Ivan Bulyko、Mat Hans和Björn Hoffmeister的宝贵领导和建议。