无需重新训练即可为语音识别器添加新词

本文介绍了一种无需重新训练即可为连接时序分类(CTC)语音识别模型添加新词的方法,通过编码器和解码器偏置技术显著提升罕见词识别准确率,在医学术语和欧洲议会数据集上F1分数分别提升23%和31%。

近年来,自动语音识别(ASR)已全面转向全神经网络模型。连接时序分类(CTC)损失函数因其无需依赖上文语境即可预测的特性,成为端到端ASR的理想选择,这种预测机制既能简化模型结构又能降低推理延迟。与早期使用词典匹配音素的混合ASR模型不同,全神经网络模型难以适配罕见词或陌生词。由于CTC模型缺乏上下文依赖(每个时间步的预测独立于先前输出),使其在新词偏置方面面临特殊挑战。

这在需要频繁更新专业词汇的ASR应用中尤为突出,例如当"泽连斯基"等新名字出现,或用户通讯录新增联系人时。传统通过重新训练大模型来更新词汇的方法存在计算成本过高的问题。在某机构SLT研讨会上发表的方法,通过以下技术实现了CTC模型对新实体名称的准确转录:

编码器偏置技术

  1. 采用上下文适配器模块,在冻结基础CTC模型权重后单独训练
  2. 通过中间层(第6/12层)的附加CTC损失生成子词序列表示
  3. 注意力机制动态匹配音频特征与实体名称嵌入向量
  4. 可自主选择是否忽略偏置列表(通过标记)

解码器偏置技术

  • 自适应子词增强:对出现在实体列表中的子词序列动态提升概率
  • 单语素增强:通过OOV/BOOST类将实体词加入外部语言模型
  • 基于音素距离的重排序:利用中间层网络输出的音素表示进行强制对齐
  • 发音词典查询:用音素预测结果替代低置信度的子词预测
  • 字素转换(G2G):建立字素与多种发音变体的映射关系

实验数据显示,在包含复杂医学术语的数据集上,该方法将实体识别F1分数从39%提升至62%;在欧洲议会公开数据集上,罕见实体识别率从49%提升至80%。最终提出的联合模型整合了编码器与解码器偏置技术,二者互补产生叠加增益——编码器偏置确保罕见子词不被剪枝,解码器偏置则进一步促进罕见词路径的排名提升。

该方法为CTC模型实现零样本个性化ASR提供了可行路径,这类模型正在成为ASR系统日益主流的选择。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计