可信机器学习在语音助手中的进展
团队在隐私保护机器学习、联邦学习和偏见缓解方面的最新研究。
1. 隐私保护机器学习
差分隐私(DP)的直觉是,访问模型的输出不应提供任何关于训练模型所用输入的线索。DP将这种直觉量化为在给定数据集上训练的模型输出与在移除单个输入后相同数据集上训练的相同模型输出之间的概率差异。
满足DP隐私保证的一种方法是在训练期间向模型参数添加一些噪声,以模糊它们与训练数据的关系。但这可能会影响准确性。所谓的隐私/效用权衡出现在每个DP应用中。
添加DP机制的另一个副作用是增加了训练时间。考虑到使用大量数据训练自然语言理解(NLU)模型可能慢得令人无法接受,而行业标准要求快速训练和部署,我们开发了一种满足DP要求但仍保持高效的训练方法。
在这项工作中,我们研究了深度神经网络最流行的DP机制DP-SGD,并构建了一个计算高效的替代方案eDP-SGD,其中我们使用利用GPU架构的批处理方案并自动化部分超参数调整过程。虽然DP-SGD和eDP-SGD提供相同的隐私保证,但我们证明我们的机制的训练时间与其非DP对应项非常相似。原始DP-SGD将训练时间延长了多达130倍。
自从我们进行研究以来,研究人员已经开发出比我们论文中施加的理论DP保证更强的方法,但我们的方法与这些方法一致。总体而言,这项工作使DP更易于普及,并帮助我们将具有DP保证的NLU模型集成到生产系统中。
虽然DP提供了理论上的隐私保证,但我们也对实际保证感兴趣,即衡量可能从给定模型泄漏的信息量。除了eDP-SGD的性能和训练时间外,我们还研究了理论和实际隐私保证之间的相关性。我们使用该领域最常用的方法,即对给定模型的成员推理攻击的成功率,来衡量实际隐私泄漏。
我们还扩展了保护NLU模型免受其他类型攻击的机制集。在研究中,我们研究了文本分类模型对某种称为模型反转攻击的白盒攻击的脆弱性,其中虚构攻击可以访问整个模型参数集,并意图检索训练期间使用的示例。现有的模型反转技术应用于具有连续输入或连续输出的模型。在我们的工作中,我们对输入和输出都是离散的文本分类任务采用了类似的方法。
随着可能显示新型漏洞的新模型架构的开发,我们将继续创新有效的方法来保护客户隐私。
即将举行的活动
- TrustNLP @ NAACL 2022
- Interspeech 2022可信语音处理特别会议
2. 联邦学习
联邦学习(FL)背后的思想是,在ML模型训练期间,部分计算委托给客户的设备,利用这些设备的处理能力,同时避免隐私敏感数据集的集中化。每个设备根据本地存储的数据修改一个共同的共享模型,然后将更新的模型发送到中央服务器,该服务器聚合模型更新并向所有设备发送新的共享模型。在每一轮中,中央服务器随机选择一部分活动设备并请求它们执行更新。
过去一年,我们在提高FL效率方面取得了进展,并将常见的FL技术应用于工业环境。例如,在研究中,我们探索了与标准均匀选择不同的设备选择策略。特别是,我们首次提出了基于设备“活动性”的设备选择研究。
这些简单的选择策略与需要所有设备进行大量计算的现有方法相比是轻量级的。因此,它们更适用于涉及数百万设备的工业应用。我们研究了两种不同的设置:标准的“静态”设置,其中所有数据一次可用;以及更现实的“持续”设置,其中客户随时间生成新数据,并且可能必须删除过去的示例以节省存储空间。我们在使用FL训练语言模型的实验表明,在现实世界数据上,非均匀采样在静态和持续设置中均优于均匀采样。
我们还扩展了对自然语言处理联邦学习的理解,并在此过程中使NLP社区更容易使用FL。在研究中,我们系统地比较了四种主流NLP任务最流行的FL算法。我们还提出了生成非独立同分布数据集分区的方法,因为现实世界的FL方法必须对用于训练ML模型的数据分布变化具有鲁棒性。
我们的分析表明,在各种设置下,集中式和分散式训练之间仍然存在很大差距,我们强调了NLP联邦学习可以推进的几个方向。该论文代表了某机构对开源框架FedNLP的贡献,该框架能够评估、分析和开发NLP的FL方法。代码库包含非IID分区方法,便于进行实验以推进NLP联邦学习的研究状态。
我们还设计了考虑客户生成数据自然异构特征的方法,并将FL应用于各种NLP任务。我们意识到FL仍然存在许多挑战,例如在无法访问数据时如何进行评估、监督任务的设备上标签生成以及服务器与不同设备之间的隐私保护通信。我们正在积极解决这些问题,并计划利用我们的发现来改进基于FL的模型训练并增强相关功能。
即将举行的活动
- Interspeech 2022可信语音处理特别会议
- FL4NLP @ ACL 2022特邀演讲
3. 机器学习公平性
自然语言处理应用对在固有偏见的大规模网络语料库上训练的大型语言模型的依赖增加,放大了准确公平性指标和构建更稳健模型程序的重要性。
在研究中,我们比较了广泛用于语言模型的两类公平性指标——即外在和内在指标。内在指标直接探究语言模型的公平性,而外在指标通过下游任务的预测来评估整个系统的公平性。
例如,上下文嵌入关联测试是一种内在指标,通过语义向量空间中的词嵌入距离来衡量偏见,而外在指标HateXPlain则衡量下游仇恨言论检测系统中的偏见。
我们的实验表明,内在和外在指标之间的不一致通常反映了用于评估它们的数据集之间的不一致,对ML模型中偏见的清晰理解需要更仔细地调整评估数据。我们在论文中报告的结果可以帮助指导NLP社区如何进行最佳公平性评估。
我们还设计了适用于语言处理应用的新公平性度量。在研究中,我们考察了输入扰动的敏感性,作为衡量ML模型公平性的一种方式。该指标试图量化单个预测在多大程度上依赖于编码 underrepresented 群体成员身份的输入特征。
我们提供了我们公式的理论分析,并展示了我们的度量与人类公平概念的相关性与现有反事实公平度量之间存在统计学显著差异。
最后,我们提出了一种在知识蒸馏过程中缓解大型语言模型偏见的方法,其中训练一个更小、更高效的模型以匹配语言模型在特定任务上的输出。由于大型语言模型是在公共文本上训练的,它们可能以多种方式存在偏见,包括将男性或女性性别与性别中性职业无根据地关联。
在另一篇论文中,我们引入了对标准蒸馏机制的两个修改:数据增强和教师预测扰动。
我们使用我们的方法为文本生成任务蒸馏了一个GPT-2语言模型,并证明了性别差异显著减少,而效用仅略有降低。有趣的是,我们发现开放文本生成中差异的减少不一定导致其他下游任务的公平性。这一发现强调了沿多个度量和任务评估语言模型公平性的重要性。
我们在NLP应用的ML公平性方面的工作应有助于实现对文本数据集固有偏见更稳健的模型。这个领域仍然存在许多挑战,但我们努力构建为任何客户提供相同体验的模型。