联邦学习与弱监督在语音识别中的应用

自动语音识别（ASR）模型是语音助手的核心组件，能够将语音转换为文本。这些模型越来越多地部署在边缘设备上，以实现更快的响应（无需云端处理）和在连接中断时保持服务。

但ASR模型需要定期更新，以适应新词汇和名称的出现。如果所有本地收集的数据都保留在设备上，更新全局模型就需要采用联邦学习，即设备在本地计算更新，仅将梯度或模型权重调整传输到云端。

联邦学习中的一个核心问题是如何标注本地存储的数据，以便用于更新本地模型。在今年的声学、语音与信号处理国际会议上，我们团队提出了解决方案。方案的一部分是使用自监督学习和数据增强，即用一个版本的模型为另一个版本标注数据；另一部分是使用基于隐式用户反馈（如重新表述请求）和跨会话多轮自然语言理解语义的噪声弱监督信号。

示例：可用于语句的弱监督

转录	在主要扬声器播放Beyonce的Halo
ASR假设	在主要扬声器播放Beyond的Hello
NLU语义	播放歌曲，艺术家：Beyonce，歌曲：Halo，设备：主要扬声器
语义成本	2/3

为测试我们的方法，我们模拟了一个联邦学习设置，其中数百台设备使用不共享的数据更新其本地模型。这些更新被聚合，并与云端服务器使用历史数据进行回放训练产生的更新相结合，以防止ASR模型出现回归。这些创新使得在新用例上的词错误率相对改善了10%，同时在其他测试集上仅有最小程度的性能下降。

噪声学生方法

半监督学习通常使用强大的教师模型为更小、更高效的学生模型标注训练数据。在计算、通信和内存受限的边缘设备上，较大的教师模型可能不实用。

相反，我们考虑了所谓的噪声学生或迭代伪标注范式，其中本地ASR模型充当自身的教师模型。模型为本地存储的音频标注后，我们会丢弃置信度过高（无法教授新知识）或过低（可能错误）的样本。获得强伪标注样本池后，我们通过添加噪声和背景语音等元素来增强样本，旨在提高训练模型的鲁棒性。

联邦自学习与弱监督概述

我们随后使用弱监督来防止错误反馈循环，即模型被训练预测错误的自标签。用户通常在与对话代理的会话中跨多轮交互，后续交互可以表明请求是否被正确处理。取消或重复请求表明用户不满意，用户也可能被提示提供显式反馈信号。这些类型的交互为自标签提供了额外的真实值来源。

特别是，我们使用强化学习来更新本地模型。在强化学习中，模型反复与环境交互，尝试学习能够最大化某些奖励函数的策略。

我们使用基于（1）隐式反馈和（2）设备端自然语言理解模型推断的语义的合成分数来模拟奖励。我们可以通过计算语义成本指标（例如，NLU模型标记的命名实体也出现在ASR假设中的比例）将NLU模型推断的语义转换为反馈得分。

为利用这种噪声反馈，我们使用自学习损失和增强的强化学习损失的组合来更新模型。由于反馈得分不能直接用于更新ASR模型，我们使用一个成本函数来最大化预测具有高奖励得分的假设的概率。

实验设置

实验设置采用了"ILASR：生产规模自动语音识别的隐私保护增量学习框架"中提出的增量学习框架。增量学习协调器将分布式设备的更新与云端服务器上40个伪设备生成的更新相结合，这些伪设备使用历史转录数据计算模型更新。

在我们的实验中，我们使用了400台设备上3,000轮训练的数据，这些设备使用自标签和弱监督来计算梯度或模型更新。云端协调器将这些更新与云端服务器上40个伪设备生成的更新相结合，这些伪设备使用历史转录数据计算模型更新。

我们在包含新颖数据的测试集上看到了超过10%的改进——即当前时间段比过去流行五倍的词汇或短语的语句。云端伪设备执行回放训练，防止灾难性遗忘，即在模型更新时对旧数据性能下降。

弱监督联邦学习在语音识别中的应用

本文介绍了一种结合半监督学习、数据增强和强化学习的联邦学习方法，通过隐式用户反馈和自然语言理解语义作为弱监督信号，在语音识别任务中实现了10%以上的词错误率降低，同时避免了强监督数据的需求。

联邦学习与弱监督在语音识别中的应用

噪声学生方法

实验设置