利用NLU标签优化ASR重评分模型技术解析

本文介绍如何通过整合自然语言理解任务来改进自动语音识别系统的重评分模型。通过多任务训练策略,将意图分类和槽位填充等NLU目标与传统语言模型目标相结合,实验表明该方法能使生僻词的识别错误率降低3%。文章详细阐述了模型架构、训练策略及未来改进方向。

利用NLU标签改进ASR重评分模型

第二遍语言模型通过多任务训练整合自然语言理解目标,能够提升自动语音识别假设的重评分效果。

技术背景

当用户与语音助手交互时,自动语音识别模型先将语音转换为文本,自然语言理解模型再对文本进行解析,为助手提供可执行的结构化数据。

传统ASR系统采用流水线架构,包含独立的声学模型、词典和语言模型。端到端ASR模型虽结构紧凑且性能相当,但因训练数据有限,在处理生僻词时存在挑战。

核心方法

标准解决方案是使用独立语言模型对端到端模型输出进行重评分。本研究提出在训练重评分模型时,不仅采用传统的语言模型目标(计算词序列概率),同时加入NLU模型的任务目标。

多任务训练架构

  • 端到端ASR模型采用循环神经网络-转换器结构,输出按概率排序的文本假设
  • 语言模型嵌入向量同时用于意图检测、槽位填充和词语预测三个任务
  • 训练阶段通过随机权重多数算法动态调整各任务权重

训练策略

最佳实践是先在语言模型目标上预训练,再使用较小NLU数据集进行多目标微调。实验表明该方法可使生僻词错误率相对传统重评分模型降低2.6%,相对无重评分模型降低5%。

技术实现

运行时仅保留词语预测任务计算句子概率得分,NLU子网络不参与实际推理。模型通过联合优化三个目标学习生成适用于所有任务的嵌入表示。

未来方向

  • 将NLU分类结果作为解码器显式输入
  • 利用意图分类实现动态重评分偏置
  • 探索使用自动标注数据增强的半监督训练技术

该方法虽提升幅度有限,但证明了多任务学习策略的有效性,为持续优化ASR系统提供了新思路。

本文研究成果发表于ASRU 2021会议,相关技术细节可参考论文《Multi-task language modeling for improving speech recognition of rare words》。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计