多任务训练框架
典型的语音交互流程中,自动语音识别(ASR)模型先将语音转换为文本,自然语言理解(NLU)模型再对文本进行解析。传统ASR系统采用流水线架构,而端到端ASR模型虽结构紧凑,但在罕见词汇识别上存在局限。
为解决该问题,常规方案是使用独立语言模型对端到端模型的输出进行重评分。本研究创新性地提出在训练重评分模型时,不仅采用标准的语言模型目标(计算词序列概率),同时引入NLU模型的任务目标。
技术实现方案
模型架构
- 端到端ASR模型采用循环神经网络-转换器结构,输出按概率排序的文本假设
- NLU模型主要执行意图分类和槽位标注两大功能(例如"播放Darlene Love的《Christmas》“中,意图为播放音乐,槽位对应歌曲名和艺术家名)
多任务训练机制
- 语言模型嵌入向量同时用于意图检测、槽位填充和词序列预测三项任务
- 训练过程中,模型学习生成同时优化三个任务的嵌入表示
- 运行时仅使用词预测任务计算的句子概率分数进行重评分
权重优化策略
实验比较两种权重分配方法:
- 线性方法:NLU目标权重从零开始逐步增加
- 随机权重多数算法:根据特定概率分布随机分配权重,训练中根据性能动态调整分布 实验表明后者效果更优
实验结果与优化
该方法使罕见词汇的错误率相对传统重评分模型降低2.6%,相对无重评分模型降低5%。最佳结果通过两阶段训练获得:
- 仅使用语言模型目标进行预训练
- 使用较小NLU数据集进行多目标联合微调
未来研究方向
- 将NLU分类结果作为解码器的显式输入(而非仅作为编码器训练目标)
- 利用意图分类动态调整重评分结果
- 探索半监督训练技术,通过自动标注数据扩充NLU子网络的训练语料
本文涉及的技术方案在2021年自动语音识别与理解研讨会(ASRU)上正式发表,相关代码实现可参考会议公开资料。