跨话语重评分实现更包容的语音识别技术

本文介绍了一种基于图标签传播的跨话语重评分方法,可显著提升语音识别系统对训练数据中代表性不足发音变体的识别准确率,在区域口音英语测试集上平均降低44%的词错误率。

更包容的语音识别:基于跨话语重评分的技术突破

在国际声学、语音与信号处理会议(ICASSP)上发表的一篇顶级论文中,研究人员采用基于图的标签传播技术,显著提升了对代表性不足发音变体的语音识别性能。

技术背景

自动语音识别(ASR)模型通常包含两个阶段:首先通过深度神经网络将声学信息映射为多个候选词序列假设,随后通过语言模型对这些假设进行重评分以评估其合理性。第一阶段的声学模型针对大量说话人的平均性能进行优化,因此在训练集中代表性不足的语音变体(如区域口音)上表现较差。传统的重评分方法无法纠正第一阶段的这种主流偏见。

创新方法

研究提出了一种新的语音识别假设重评分方法,能够有效处理训练数据中代表性不足或失配的语音样本。该方法构建了一个包含不同说话人但具有相似假设的语音样本图,在听起来相似的语音片段之间创建边连接。随后通过提升图中相邻节点共享假设的概率,使发音相似的语音片段能够相互支持。

实验成果

在区域口音英语数据库上的测试表明,主要基于北美英语训练的语音识别器对英国、苏格兰、爱尔兰、印度等地说话人存在较高错误率。新方法将词错误率平均降低了44%。

技术实现细节

图构建

方法使用完全训练的循环神经网络传感器(RNN-T)ASR模型生成初始转录假设。RNN-T是一种编码器-解码器模型,其中编码器模块将输入映射到表示空间,解码器模块利用这些嵌入生成ASR假设。

重评分过程采用基于图的标签传播技术,将标签从已标注样本传播到未标注样本。图中节点代表语音嵌入,标签则是第一次识别过程产生的ASR假设。

数据处理

图构建的第一步是选择包含在图中的数据。将数据分成具有大量ASR假设重叠的话语组,为每个组构建单独的图。例如,单个图可能主要由类似结构的天气查询组成。

通过基于动态时间规整(DTW)的距离度量测量嵌入之间的距离,DTW距离度量与通过编辑距离测量的话语转录本距离具有良好相关性。

标签传播

在半监督学习设置中,图包含一些转录本高度准确的标注数据和大量未标注数据。使用标准的基于图的标签传播算法在图中分布不同ASR假设的"优度分数"。这些算法旨在最小化连接(即相似)图节点之间标签值的剧烈不连续性。

应用前景

该算法需要比较整个话语集,因此主要在半监督学习场景中具有直接应用价值。通过为包含代表性不足语音模式的样本附加更准确的标签,可以多样化训练数据,最终帮助克服主流偏见。

这项研究因其创新性和实用性被ICASSP组委会评为会议前3%的优秀论文。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计