利用BERT模型提升语音识别重排序技术

本文介绍RescoreBERT模型如何通过知识蒸馏和判别式训练,将BERT的强大能力应用于语音识别二次重排序,在保持商业部署效率的同时,相对传统LSTM模型降低13%错误率。

当用户与语音助手交互时,自动语音识别(ASR)模型将语音转换为文本。由于核心ASR模型训练数据有限,在处理罕见词汇时表现欠佳,因此需引入基于海量文本训练的语言模型对识别假设进行重排序。

自然语言处理领域广泛使用的BERT模型,传统上通过计算伪对数似然(PLL)分数进行重排序,但计算开销巨大。本文提出的RescoreBERT模型通过以下创新实现高效部署:

模型架构
每个ASR假设由CLS标记分隔后输入BERT编码器。CLS标记的编码作为整句表征,通过前馈神经网络计算二次评分,最终与初次评分线性插值实现重排序。

知识蒸馏
采用MLM(掩码语言模型)蒸馏技术,使小型BERT模型模仿大型"教师"模型的PLL分数预测,将延迟降低84%。蒸馏分数与原始评分插值形成最终输出。

判别式训练
在MLM蒸馏基础上引入判别式训练目标:要求线性插值后的正确假设分数必须为最低。创新提出MWED(匹配词错误分布)损失函数,通过对齐假设分数与词错误分布,在英语测试集上实现7%-13%的WER(词错误率)提升。

实验表明,该模型已成功部署于亿级参数的多语言语音系统,显著提升罕见词汇识别准确率(如将"fission"从错误候选"fishing"中正确识别)。判别式训练阶段证明,相比仅使用MLM蒸馏的3%-6%提升,完整RescoreBERT方案带来双倍性能增益。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计