弱监督联邦学习在语音识别中的应用

本文介绍了一种结合半监督学习、数据增强和强化学习的联邦学习方法,通过隐式用户反馈和自然语言理解语义作为弱监督信号,在语音识别任务中实现了10%以上的词错误率降低,同时避免了强监督数据的需求。

联邦学习与弱监督在语音识别中的应用

自动语音识别(ASR)模型是语音助手的核心组件,能够将语音转换为文本。这些模型越来越多地部署在边缘设备上,以实现更快的响应(无需云端处理)和在连接中断时保持服务。

但ASR模型需要定期更新,以适应新词汇和名称的出现。如果所有本地收集的数据都保留在设备上,更新全局模型就需要采用联邦学习,即设备在本地计算更新,仅将梯度或模型权重调整传输到云端。

联邦学习中的一个核心问题是如何标注本地存储的数据,以便用于更新本地模型。在今年的声学、语音与信号处理国际会议上,我们团队提出了解决方案。方案的一部分是使用自监督学习和数据增强,即用一个版本的模型为另一个版本标注数据;另一部分是使用基于隐式用户反馈(如重新表述请求)和跨会话多轮自然语言理解语义的噪声弱监督信号。

示例:可用于语句的弱监督

转录 在主要扬声器播放Beyonce的Halo
ASR假设 在主要扬声器播放Beyond的Hello
NLU语义 播放歌曲,艺术家:Beyonce,歌曲:Halo,设备:主要扬声器
语义成本 2/3

为测试我们的方法,我们模拟了一个联邦学习设置,其中数百台设备使用不共享的数据更新其本地模型。这些更新被聚合,并与云端服务器使用历史数据进行回放训练产生的更新相结合,以防止ASR模型出现回归。这些创新使得在新用例上的词错误率相对改善了10%,同时在其他测试集上仅有最小程度的性能下降。

噪声学生方法

半监督学习通常使用强大的教师模型为更小、更高效的学生模型标注训练数据。在计算、通信和内存受限的边缘设备上,较大的教师模型可能不实用。

相反,我们考虑了所谓的噪声学生或迭代伪标注范式,其中本地ASR模型充当自身的教师模型。模型为本地存储的音频标注后,我们会丢弃置信度过高(无法教授新知识)或过低(可能错误)的样本。获得强伪标注样本池后,我们通过添加噪声和背景语音等元素来增强样本,旨在提高训练模型的鲁棒性。

联邦自学习与弱监督概述

我们随后使用弱监督来防止错误反馈循环,即模型被训练预测错误的自标签。用户通常在与对话代理的会话中跨多轮交互,后续交互可以表明请求是否被正确处理。取消或重复请求表明用户不满意,用户也可能被提示提供显式反馈信号。这些类型的交互为自标签提供了额外的真实值来源。

特别是,我们使用强化学习来更新本地模型。在强化学习中,模型反复与环境交互,尝试学习能够最大化某些奖励函数的策略。

我们使用基于(1)隐式反馈和(2)设备端自然语言理解模型推断的语义的合成分数来模拟奖励。我们可以通过计算语义成本指标(例如,NLU模型标记的命名实体也出现在ASR假设中的比例)将NLU模型推断的语义转换为反馈得分。

为利用这种噪声反馈,我们使用自学习损失和增强的强化学习损失的组合来更新模型。由于反馈得分不能直接用于更新ASR模型,我们使用一个成本函数来最大化预测具有高奖励得分的假设的概率。

实验设置

实验设置采用了"ILASR:生产规模自动语音识别的隐私保护增量学习框架"中提出的增量学习框架。增量学习协调器将分布式设备的更新与云端服务器上40个伪设备生成的更新相结合,这些伪设备使用历史转录数据计算模型更新。

在我们的实验中,我们使用了400台设备上3,000轮训练的数据,这些设备使用自标签和弱监督来计算梯度或模型更新。云端协调器将这些更新与云端服务器上40个伪设备生成的更新相结合,这些伪设备使用历史转录数据计算模型更新。

我们在包含新颖数据的测试集上看到了超过10%的改进——即当前时间段比过去流行五倍的词汇或短语的语句。云端伪设备执行回放训练,防止灾难性遗忘,即在模型更新时对旧数据性能下降。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计