跨话语重评分实现更包容的语音识别技术

本文介绍了一种基于图标签传播的跨话语重评分方法,可有效提升语音识别系统对非标准发音的识别准确率。通过构建语音嵌入图并传播假设标签,在区域口音英语测试中平均降低44%的词错误率。

跨话语重评分实现更包容的语音识别技术

自动语音识别(ASR)模型在语音代理中将语音转换为文本,通常包含两个阶段。第一阶段采用深度神经网络将代表语音的声学信息映射到多个候选词汇序列假设;第二阶段通过语言模型对这些假设词汇序列的合理性进行重评分。

声学模型针对大量说话者的平均性能进行优化,因此对训练集中代表性不足的语音变体(如地方口音发音)识别效果较差。标准重评分方法无法纠正第一阶段的这种主流偏见。

在今年的声学、语音与信号处理国际会议(ICASSP)上,提出了一种新的语音识别假设重评分方法,可有效改善对训练数据中代表性不足或失配语音的识别错误。

该方法构建来自不同说话者但具有相似假设的语音样本图,在听起来相似的语音之间创建边连接。随后提升图中相邻节点共享假设的概率,这意味着发音相似的语音会相互增强假设权重。这使得孤立情况下概率较低的词汇发音,在多个话语中保持一致时能够相互支持。

实验验证

在区域口音英语数据库上测试跨话语重评分方法。语音识别器主要基于北美英语训练,因此对来自英格兰、苏格兰、爱尔兰、印度等地的说话者显示较高错误率。新方法将词错误率平均降低44%。

该算法需要比较完整的话语集合,因此主要适用于半监督学习场景。在这种设置下,通常由大型教师ASR模型为计算效率更高的学生模型标注训练数据。通过为包含非主流语音模式的样本附加更准确的标签,可以多样化训练数据,最终帮助克服主流偏见。

图构建技术

考虑初始转录假设由完全训练的循环神经网络传感器(RNN-T)ASR模型产生的情况。RNN-T模型是编码器-解码器架构,包含将输入映射到表示空间的编码器模块,以及使用这些嵌入表示生成ASR假设的解码器模块。

为了重新评估这些假设,采用基于图的标签传播技术将标签从已标注样本传播到未标注样本。图中节点代表语音嵌入,标签是第一次识别通过的ASR假设。

图构建第一步是选择纳入图的数据。将数据分成具有大量ASR假设重叠的话语组,并为每个组构建单独的图。例如,单个图可能主要包含关于天气的类似短语查询。

确定纳入图的语音后,测量其嵌入表示之间的距离。尝试多种距离度量后,最终选择基于动态时间规整(DTW)的距离度量。DTW原本设计用于测量时间序列之间的距离,但将嵌入向量的每个值视为独立时间步长。基于DTW的距离度量在此应用中表现良好,因为经验表明其与话语转录本之间的编辑距离高度相关。

根据距离测量计算图节点之间的边。尝试根据节点间的DTW距离对边进行加权,但经验发现二元边效果最佳。从数据中学习距离阈值:所有相互距离低于该阈值的节点通过边连接,距离超过阈值的节点保持未连接状态。

标签传播机制

在半监督学习设置中,图包含部分标注数据(其转录本高度准确)和大量未标注数据。使用标准基于图的标签传播算法在图中分布不同ASR假设的"优度分数"。这些算法本质上旨在最小化连接(即相似)图节点间标签值的剧烈不连续性。

核心思想是:即使ASR模型对包含非标准发音的话语的正确转录赋予低置信度分数,该话语的嵌入表示也会与正确转录获得高置信度分数的话语共享边连接。随后正确转录将在该图区域传播,从而提高非标准发音话语被正确转录的概率。

该方法入选ICASSP会议前3%优秀论文,展现了在提升语音识别包容性方面的技术突破。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计