弱监督联邦学习优化语音识别技术

本文介绍结合半监督学习、数据增强和强化学习的联邦学习框架,通过隐式用户反馈和自然语言理解语义作为弱监督信号,在语音识别任务中实现词错误率降低10%以上,同时避免设备端数据隐私泄露问题。

联邦学习与弱监督在语音识别中的应用

自动语音识别(ASR)模型是语音助手的核心组件,其部署在边缘设备时可实现快速响应且不依赖云处理。但模型需持续更新以适应新词汇,而联邦学习可在保持数据本地化的前提下,通过传输梯度更新全局模型。

核心方法

自监督与数据增强

采用噪声学生范式,使本地ASR模型作为自身教师模型生成伪标签。通过置信度筛选保留高质量样本,并添加噪声和背景语音等增强数据以提升模型鲁棒性。

弱监督信号利用

通过多轮会话中的隐式用户反馈(如请求重述)和设备端自然语言理解(NLU)模型的语义解析生成弱监督信号。例如通过语义成本指标(如命名实体识别错误比例)构建奖励函数。

强化学习整合

结合自监督损失和强化学习损失更新模型,通过最大化高奖励假设的概率优化策略。实验采用400台设备进行3000轮训练,云端协调器将设备更新与40个伪设备的历史数据更新聚合。

实验结果

在新数据测试集上词错误率相对降低10%以上,云端伪设备的重放训练有效防止模型对旧数据的性能退化。

表:语句弱监督示例

转录内容 ASR假设 NLU语义 语义成本
在主音箱播放Beyonce的Halo 在主音箱播放Beyond的Hello 播放歌曲,艺术家:Beyonce,歌曲:Halo,设备:主音箱 2/3

技术架构

联邦自学习框架包含教师模型生成清洁音频标签,学生模型通过增强音频计算自标签损失,强化学习范式则通过多轮会话数据最小化反馈得分。

该方法已发表于ICASSP 2023会议,相关论文《Federated self-learning with weak supervision for speech recognition》进一步阐述了技术细节。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计