利用NLU标签优化ASR重评分模型

会议信息

ASRU 2021

技术内容

通常，当用户与语音助手交互时，自动语音识别（ASR）模型会先将语音转换为文本，随后自然语言理解（NLU）模型对文本进行解析，为助手提供可执行的结构化数据。

传统ASR系统采用流水线架构，包含独立的声学模型、词典和语言模型。语言模型编码词汇序列概率，用于在声学信号的不同解读之间做出决策。由于训练数据包含公开文本，这些语言模型能编码大量词汇的概率。

端到端ASR模型直接将声学信号作为输入并输出词汇序列，结构更加紧凑，整体性能与传统流水线系统相当。但由于训练数据仅限于音频-文本对，此类模型在处理罕见词汇时可能表现不佳。

标准解决方案是使用独立语言模型对端到端模型的输出进行重评分。例如，若端到端模型在设备端运行，语言模型可在云端进行重评分。

在本年度自动语音识别与理解研讨会（ASRU）上，提出了一种创新训练方法：不仅基于传统语言模型目标（计算词汇序列概率）训练重评分模型，同时结合NLU模型执行的任务进行多任务训练。

该方法的核心思想是，利用通常可获取标注数据的NLU任务，帮助语言模型吸收更多知识，从而提升罕见词汇识别能力。实验表明，相较于传统方式训练的重评分语言模型，该方法可使罕见词汇错误率降低约3%；与无重评分模型相比，错误率降低约5%。

最佳结果通过两阶段训练实现：首先仅基于语言模型目标对重评分模型进行预训练，随后使用较小规模的NLU数据集进行多目标联合微调。这种方式既能利用大量未标注数据，又能获得多任务学习的优势。

多任务训练架构

端到端ASR模型采用循环神经网络-传感器（RNN-T）架构，按顺序处理序列输入，输出按概率排序的文本假设集合。

NLU模型通常执行两大功能：意图分类和槽位标注。例如用户说"播放Darlene Love的《Christmas》“时，意图为播放音乐，槽位"歌曲名"和"艺术家名"分别对应"Christmas"和"Darlene Love”。

语言模型通常基于上文预测后续词汇，通过将输入词汇表示为固定长度的嵌入向量来捕获预测所需信息。在多任务训练方案中，相同的嵌入向量被同时用于意图检测、槽位填充和词汇预测任务。

语言模型嵌入被馈送到两个附加子网络：意图检测网络和槽位填充网络。训练过程中，模型学习生成同时优化三个任务的嵌入向量。实际运行时，意图检测和槽位填充子网络不被使用，ASR假设的重评分仅基于词汇预测任务计算的句子概率得分（下图中标注为"LM分数"）。

权重优化策略

训练过程中需要同时优化三个目标，因此需为每个目标分配权重以确定相对重要性。实验了两种权重分配技术：线性方法（将NLU目标权重从零开始逐步增加）和随机权重多数算法（根据特定概率分布随机分配权重并根据性能动态调整）。实验表明后者效果更优。

未来研究方向

该方法虽仅实现2.6%的罕见词汇错误率降低（相较于基于普通语言模型的重评分模型），但证明了技术路线的有效性。当前正在探索更多降低错误率的方法，例如：将NLU分类结果作为解码器的显式输入（而非仅作为编码器训练目标）；利用意图分类动态偏置重评分结果；研究半监督训练技术，通过自动标注数据扩增NLU子网络的训练语料。

研究领域

对话式人工智能

技术标签

自动语音识别（ASR）、多任务学习