更包容的语音识别:基于跨话语重评分的技术突破
在国际声学、语音与信号处理会议(ICASSP)上发表的一篇顶级论文中,研究人员采用基于图的标签传播技术,显著提升了对代表性不足发音变体的语音识别性能。
技术背景
自动语音识别(ASR)模型通常包含两个阶段:首先通过深度神经网络将声学信息映射为多个候选词序列假设,随后通过语言模型对这些假设进行重评分以评估其合理性。第一阶段的声学模型针对大量说话人的平均性能进行优化,因此在训练集中代表性不足的语音变体(如区域口音)上表现较差。传统的重评分方法无法纠正第一阶段的这种主流偏见。
创新方法
研究提出了一种新的语音识别假设重评分方法,能够有效处理训练数据中代表性不足或失配的语音样本。该方法构建了一个包含不同说话人但具有相似假设的语音样本图,在听起来相似的语音片段之间创建边连接。随后通过提升图中相邻节点共享假设的概率,使发音相似的语音片段能够相互支持。
实验成果
在区域口音英语数据库上的测试表明,主要基于北美英语训练的语音识别器对英国、苏格兰、爱尔兰、印度等地说话人存在较高错误率。新方法将词错误率平均降低了44%。
技术实现细节
图构建
方法使用完全训练的循环神经网络传感器(RNN-T)ASR模型生成初始转录假设。RNN-T是一种编码器-解码器模型,其中编码器模块将输入映射到表示空间,解码器模块利用这些嵌入生成ASR假设。
重评分过程采用基于图的标签传播技术,将标签从已标注样本传播到未标注样本。图中节点代表语音嵌入,标签则是第一次识别过程产生的ASR假设。
数据处理
图构建的第一步是选择包含在图中的数据。将数据分成具有大量ASR假设重叠的话语组,为每个组构建单独的图。例如,单个图可能主要由类似结构的天气查询组成。
通过基于动态时间规整(DTW)的距离度量测量嵌入之间的距离,DTW距离度量与通过编辑距离测量的话语转录本距离具有良好相关性。
标签传播
在半监督学习设置中,图包含一些转录本高度准确的标注数据和大量未标注数据。使用标准的基于图的标签传播算法在图中分布不同ASR假设的"优度分数"。这些算法旨在最小化连接(即相似)图节点之间标签值的剧烈不连续性。
应用前景
该算法需要比较整个话语集,因此主要在半监督学习场景中具有直接应用价值。通过为包含代表性不足语音模式的样本附加更准确的标签,可以多样化训练数据,最终帮助克服主流偏见。
这项研究因其创新性和实用性被ICASSP组委会评为会议前3%的优秀论文。