自动语音识别新技术突破
在Interspeech 2020会议上,某中心展示了12篇关于自动语音识别(ASR)的研究论文,重点介绍了在说话人识别和端到端语音识别模型训练方面的创新成果。
说话人识别技术突破
论文《基于自注意力和对抗训练的居家场景说话人识别》提出了一种新颖的说话人识别方法。与传统使用循环神经网络或卷积神经网络的方法不同,该研究采用注意力机制来捕捉语音信号中的长距离一致性特征。
技术实现要点:
- 将语音信号分割为帧,每帧表示为自身与语句中所有其他帧的加权和
- 权重取决于帧间频率特征的相关性
- 通过对抗训练提升系统鲁棒性
实验结果显示,该方法相比基线系统在已知说话人上的错误率降低12%,在新说话人上的错误率降低30%。
RNN-T架构优化
另外两篇论文重点研究了循环神经网络转换器(RNN-T)架构的改进:
子词正则化研究
通过在同一条语音转录训练中使用多种分词方式,在使用5000小时语音数据训练的模型中,ASR错误率降低8.4%。
最小词错误率训练
提出新的损失函数计算方法,采用前向-后向算法有效处理不同对齐方式,使RNN-T模型的错误率降低3.6%-9.2%。
技术架构详解
RNN-T ASR系统包含三个核心组件:
- 编码器网络:从当前语音帧中提取声学特征
- 预测网络:基于当前输出子词序列预测下一个子词的语义特征
- 联合网络:综合两种表征确定输出序列中的下一个词
这些研究成果展示了某中心在语音识别技术领域的持续创新,为智能语音助手的发展提供了重要的技术支撑。