利用自然语言理解标签优化语音识别重评分模型

本文介绍了一种通过结合自然语言理解任务来改进自动语音识别重评分模型的方法。通过多任务训练策略,将意图分类和槽位填充任务融入语言模型训练,显著提升了罕见词汇的识别准确率,相对传统方法降低错误率约3%。

多任务训练框架

典型的语音交互流程中,自动语音识别(ASR)模型先将语音转换为文本,自然语言理解(NLU)模型再对文本进行解析。传统ASR系统采用流水线架构,而端到端ASR模型虽结构紧凑,但在罕见词汇识别上存在局限。

为解决该问题,常规方案是使用独立语言模型对端到端模型的输出进行重评分。本研究创新性地提出在训练重评分模型时,不仅采用标准的语言模型目标(计算词序列概率),同时引入NLU模型的任务目标。

技术实现方案

模型架构

  • 端到端ASR模型采用循环神经网络-转换器结构,输出按概率排序的文本假设
  • NLU模型主要执行意图分类和槽位标注两大功能(例如"播放Darlene Love的《Christmas》“中,意图为播放音乐,槽位对应歌曲名和艺术家名)

多任务训练机制

  1. 语言模型嵌入向量同时用于意图检测、槽位填充和词序列预测三项任务
  2. 训练过程中,模型学习生成同时优化三个任务的嵌入表示
  3. 运行时仅使用词预测任务计算的句子概率分数进行重评分

权重优化策略

实验比较两种权重分配方法:

  • 线性方法:NLU目标权重从零开始逐步增加
  • 随机权重多数算法:根据特定概率分布随机分配权重,训练中根据性能动态调整分布 实验表明后者效果更优

实验结果与优化

该方法使罕见词汇的错误率相对传统重评分模型降低2.6%,相对无重评分模型降低5%。最佳结果通过两阶段训练获得:

  1. 仅使用语言模型目标进行预训练
  2. 使用较小NLU数据集进行多目标联合微调

未来研究方向

  1. 将NLU分类结果作为解码器的显式输入(而非仅作为编码器训练目标)
  2. 利用意图分类动态调整重评分结果
  3. 探索半监督训练技术,通过自动标注数据扩充NLU子网络的训练语料

本文涉及的技术方案在2021年自动语音识别与理解研讨会(ASRU)上正式发表,相关代码实现可参考会议公开资料。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计