技术背景
自动语音识别(ASR)模型通常包含两个阶段:首先通过深度神经网络将语音声学信息映射为多个词汇假设,随后通过语言模型对这些假设序列进行合理性重评分。由于声学模型主要针对大量说话人的平均表现进行优化,对训练集中代表性不足的语音变体(如区域口音)识别效果较差。
创新方法
在ICASSP会议上提出的新方法采用基于图的标签传播技术,通过构建语音样本图来改进对非标准发音的识别。该方法包含两个核心步骤:
图构建
- 从具有相似ASR假设的语音样本中分组构建图结构
- 使用动态时间规整(DTW)距离度量计算语音嵌入间的相似度
- 基于距离阈值建立节点间的二元连接边
标签传播
- 在半监督学习框架下结合标注数据与未标注数据
- 通过图传播算法在相似节点间分发ASR假设的"置信度评分"
- 使非标准发音的正确转录能通过图连接获得置信度提升
实验成果
在区域口音英语数据集上的测试表明,该方法能平均降低44%的词汇错误率。特别对北美英语训练数据中代表性不足的英国、苏格兰、爱尔兰和印度等地区口音表现出显著改进效果。
应用前景
该技术特别适用于半监督学习场景,通过为具有非标准语音模式的数据提供更准确的标签,有助于增加训练数据的多样性,最终克服语音识别系统中的主流偏见问题。
相关论文《Cross-utterance ASR rescoring with graph-based label propagation》入选ICASSP会议前3%优秀论文