联邦学习与弱监督在语音识别中的应用
自动语音识别(ASR)模型是语音助手的核心组件,能够将语音转换为文本。随着这些模型越来越多地部署在边缘设备上,它们能够实现更快的响应(无需云端处理)并在网络中断时保持服务。然而,ASR模型需要定期更新,以适应新词汇和名称的出现。如果所有本地收集的数据都保留在设备上,更新全局模型就需要联邦学习,即设备在本地计算更新,仅将梯度或模型权重调整传输到云端。
联邦学习中的一个核心问题是如何标注本地存储的数据,以便用于更新本地模型。在今年的声学、语音与信号处理国际会议(ICASSP)上,我们团队提出了一种解决方案。该方案的一部分是使用自监督学习(即用一个版本的模型为另一个版本标注数据)和数据增强;另一部分是利用基于隐式用户反馈(如重新表述请求)和会话中多轮自然语言理解语义的嘈杂弱监督信号。
弱监督示例
转录: play Halo by Beyonce in main speaker
ASR假设: play Hello by Beyond in main speaker
NLU语义: PlaySong, Artist: Beyonce, Song: Halo, Device: Main Speaker
语义成本: 2/3(错误槽位比例)
表中展示了可用于话语的弱监督示例,其中语义成本(错误槽位比例)被用作反馈信号。
为测试该方法,我们模拟了一个联邦学习(FL)设置,其中数百台设备使用未共享的数据更新其本地模型。这些更新被聚合,并与云端服务器的更新结合,服务器通过历史数据回放训练以防止ASR模型回归。在缺乏强监督信号(如真实转录)的情况下,这些创新使得在新用例上的词错误率(WER)相对改善了10%,且在其他测试集上性能下降最小。
嘈杂学生方法
半监督学习通常使用大型、强大的教师模型为更小、更高效的学生模型标注训练数据。在边缘设备上,由于计算、通信和内存限制,大型教师模型可能不实用。因此,我们采用所谓的嘈杂学生或迭代伪标注范式,其中本地ASR模型充当自身的教师模型。模型标注本地存储的音频后,丢弃标签置信度过高(无法教授新知识)或过低(可能错误)的示例。获得强伪标注示例池后,通过添加噪声和背景语音等元素增强示例,以提高训练模型的鲁棒性。
联邦自学习与弱监督概述
教师模型使用纯净音频生成标签。在增强音频上计算自标签损失以强制学生模型的一致性。在强化学习范式中,弱监督损失最小化从多轮会话数据推断的假设的预期反馈分数。
弱监督用于防止错误反馈循环,即模型被训练预测错误的自标签。用户通常在多轮会话中与对话代理交互,后续交互可以指示请求是否被正确处理。取消或重复请求表明用户不满,用户也可能被提示提供显式反馈信号。这些交互类型为自标签提供了额外的真实来源。
特别是,我们使用强化学习更新本地模型。在强化学习中,模型反复与环境交互,尝试学习最大化某些奖励函数的策略。我们使用基于(1)隐式反馈和(2)设备上自然语言理解(NLU)模型推断的语义的合成分数模拟奖励。通过计算语义成本指标(如NLU模型标记的命名实体在ASR假设中出现的比例),将NLU模型推断的语义转换为反馈分数。
为利用这种嘈杂反馈,我们结合自学习损失和增强的强化学习损失更新模型。由于反馈分数不能直接用于更新ASR模型,我们使用成本函数最大化预测高奖励分数假设的概率。
实验设置
实验采用“ILASR: Privacy-preserving incremental learning for automatic speech recognition at production scale”中提出的增量学习(IL)框架。IL协调器将分布式设备的更新与云端服务器上40个伪设备的更新结合,这些伪设备使用历史转录数据计算模型更新。
在实验中,我们使用了400台设备上的3,000轮训练数据,这些设备使用自标签和弱监督计算梯度或模型更新。云端协调器将这些更新与云端服务器上40个伪设备的更新结合,这些伪设备使用历史转录数据计算模型更新。在包含新数据(即当前时间段词汇或短语流行度是过去五倍的话语)的测试集上,我们观察到超过10%的改进。云端伪设备执行回放训练,防止灾难性遗忘或在更新模型时对旧数据性能下降。
研究领域
对话式AI
标签
自动语音识别(ASR)、边缘计算、联邦学习、自监督学习、自学习、ICASSP
相关出版物
联邦自学习与弱监督用于语音识别
关于作者
Milind Rao是某机构语音组织的高级应用科学家。