会议背景
Interspeech作为语音技术领域规模最大的学术会议,长期展示某中心Alexa在自动语音识别(ASR)方面的最新研究成果。2020年,研究人员共有12篇ASR论文被会议收录。
核心技术突破
说话人识别系统创新
论文《基于自注意力与对抗训练的家庭场景说话人识别》提出新型说话人识别方案。传统系统依赖循环神经网络或卷积神经网络追踪短时语音特征,而新方法采用注意力机制捕捉长时程语音一致性特征。
技术实现细节:
- 语音信号被划分为帧,每帧表示为自身与语句中所有其他帧的加权和
- 权重取决于帧间频率特征相关性,相关性越高权重越大
- 该表示方法能捕获说话人声音的区分性特征,抑制单个帧的偶然特性
- 结合对抗训练提升系统鲁棒性
实验效果:
- 相比基线最佳系统,错误率降低12%(已知说话人)和30%(新说话人)
- 系统输出每帧的序列结果经平均后生成整体语句快照,与存储配置文件比对确定说话人身份
RNN-T架构优化
两篇论文分别从不同角度改进循环神经网络转导器(RNN-T)架构:
子词正则化研究(Egor Lakomkin等):
- 通过在训练中使用同一语音转录的多种分割方式
- 在5000小时语音数据训练中使ASR错误率降低8.4%
最小词错误率训练(Jinxi Guo等):
- 提出新型损失函数,直接优化词错误率指标
- 采用前向-后向算法高效计算假设概率
- 错误率降低幅度达3.6%-9.2%
技术架构详解
RNN-T系统处理流程:
- 编码器网络提取当前音频帧的声学特征
- 预测网络分析当前输出子词序列的语义特性
- 联合网络基于声学特征和语义特性确定下一个输出子词
其他研究成果
会议还收录了多篇相关论文,涉及:
- 端到端神经转换器语音理解
- 复合词丰富语言的语音识别改进
- 数字语音助手的端到端语音识别训练策略
- 语音数据的序列判别式训练
- 自动语音识别中的量化感知训练
- N-gram语言模型的高效哈希数据结构
- 端到端口语理解的语义复杂性研究
- 联合优化ASR和自然语言理解的全神经接口
应用价值
这些技术进展显著提升了语音识别系统在家庭场景中的准确性和鲁棒性,为多说话人环境下的个性化语音服务提供了技术基础。