利用NLU标签优化ASR重评分模型

本文介绍通过结合自然语言理解任务训练自动语音识别重评分模型的方法,利用多任务学习提升罕见词汇识别准确率,在ASRU 2021会议上提出的技术方案可降低3%的词汇错误率。

会议信息

ASRU 2021

相关出版物

《Multi-task language modeling for improving speech recognition of rare words》

技术内容

通常,当用户与语音助手交互时,自动语音识别(ASR)模型会先将语音转换为文本,随后自然语言理解(NLU)模型对文本进行解析,为助手提供可执行的结构化数据。

传统ASR系统采用流水线架构,包含独立的声学模型、词典和语言模型。语言模型编码词汇序列概率,用于在声学信号的不同解读之间做出决策。由于训练数据包含公开文本,这些语言模型能编码大量词汇的概率。

端到端ASR模型直接将声学信号作为输入并输出词汇序列,结构更加紧凑,整体性能与传统流水线系统相当。但由于训练数据仅限于音频-文本对,此类模型在处理罕见词汇时可能表现不佳。

标准解决方案是使用独立语言模型对端到端模型的输出进行重评分。例如,若端到端模型在设备端运行,语言模型可在云端进行重评分。

在本年度自动语音识别与理解研讨会(ASRU)上,提出了一种创新训练方法:不仅基于传统语言模型目标(计算词汇序列概率)训练重评分模型,同时结合NLU模型执行的任务进行多任务训练。

该方法的核心思想是,利用通常可获取标注数据的NLU任务,帮助语言模型吸收更多知识,从而提升罕见词汇识别能力。实验表明,相较于传统方式训练的重评分语言模型,该方法可使罕见词汇错误率降低约3%;与无重评分模型相比,错误率降低约5%。

最佳结果通过两阶段训练实现:首先仅基于语言模型目标对重评分模型进行预训练,随后使用较小规模的NLU数据集进行多目标联合微调。这种方式既能利用大量未标注数据,又能获得多任务学习的优势。

多任务训练架构

端到端ASR模型采用循环神经网络-传感器(RNN-T)架构,按顺序处理序列输入,输出按概率排序的文本假设集合。

NLU模型通常执行两大功能:意图分类和槽位标注。例如用户说"播放Darlene Love的《Christmas》“时,意图为播放音乐,槽位"歌曲名"和"艺术家名"分别对应"Christmas"和"Darlene Love”。

语言模型通常基于上文预测后续词汇,通过将输入词汇表示为固定长度的嵌入向量来捕获预测所需信息。在多任务训练方案中,相同的嵌入向量被同时用于意图检测、槽位填充和词汇预测任务。

语言模型嵌入被馈送到两个附加子网络:意图检测网络和槽位填充网络。训练过程中,模型学习生成同时优化三个任务的嵌入向量。实际运行时,意图检测和槽位填充子网络不被使用,ASR假设的重评分仅基于词汇预测任务计算的句子概率得分(下图中标注为"LM分数")。

权重优化策略

训练过程中需要同时优化三个目标,因此需为每个目标分配权重以确定相对重要性。实验了两种权重分配技术:线性方法(将NLU目标权重从零开始逐步增加)和随机权重多数算法(根据特定概率分布随机分配权重并根据性能动态调整)。实验表明后者效果更优。

未来研究方向

该方法虽仅实现2.6%的罕见词汇错误率降低(相较于基于普通语言模型的重评分模型),但证明了技术路线的有效性。当前正在探索更多降低错误率的方法,例如:将NLU分类结果作为解码器的显式输入(而非仅作为编码器训练目标);利用意图分类动态偏置重评分结果;研究半监督训练技术,通过自动标注数据扩增NLU子网络的训练语料。

研究领域

对话式人工智能

技术标签

自动语音识别(ASR)、多任务学习

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计