基于跨语句重评的包容性语音识别技术

本文介绍了一种利用图标签传播技术改进语音识别系统对非标准发音识别能力的方法。通过构建语音嵌入图并传播假设置信度,有效降低了区域口音导致的识别错误率,在实验中平均减少44%的词汇错误率。

技术背景

自动语音识别(ASR)模型通常包含两个阶段:首先通过深度神经网络将语音声学信息映射为多个词汇假设,随后通过语言模型对这些假设序列进行合理性重评分。由于声学模型主要针对大量说话人的平均表现进行优化,对训练集中代表性不足的语音变体(如区域口音)识别效果较差。

创新方法

在ICASSP会议上提出的新方法采用基于图的标签传播技术,通过构建语音样本图来改进对非标准发音的识别。该方法包含两个核心步骤:

图构建

  1. 从具有相似ASR假设的语音样本中分组构建图结构
  2. 使用动态时间规整(DTW)距离度量计算语音嵌入间的相似度
  3. 基于距离阈值建立节点间的二元连接边

标签传播

  1. 在半监督学习框架下结合标注数据与未标注数据
  2. 通过图传播算法在相似节点间分发ASR假设的"置信度评分"
  3. 使非标准发音的正确转录能通过图连接获得置信度提升

实验成果

在区域口音英语数据集上的测试表明,该方法能平均降低44%的词汇错误率。特别对北美英语训练数据中代表性不足的英国、苏格兰、爱尔兰和印度等地区口音表现出显著改进效果。

应用前景

该技术特别适用于半监督学习场景,通过为具有非标准语音模式的数据提供更准确的标签,有助于增加训练数据的多样性,最终克服语音识别系统中的主流偏见问题。

相关论文《Cross-utterance ASR rescoring with graph-based label propagation》入选ICASSP会议前3%优秀论文

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计