语音技术前沿研究与创新应用
研究亮点
加速器感知的语音识别训练
基于 transducer 的语音识别模型在全精度训练后,部署在神经网络加速器芯片上时可能出现性能下降。研究人员提出了一种在训练时模拟神经网络加速器操作的方法。
解码算法对语言生成公平性的影响
系统研究了不同解码算法对大型语言模型公平性的影响,发现公平性随解码算法超参数的变化而显著变化,并为公平性评估中的解码细节报告提供了建议。
差分隐私语音识别
应用教师集成私有聚合技术到自动语音识别中,在满足差分隐私约束的同时将词错误率降低了26%至28%。
多语言语音识别注意力机制
在基于 Conformer 的编码器注意力机制中使用语言特定参数,相对于多语言基线在六种语言上的性能提升达12%,相对于单语言基线提升达36%。
引导对比自监督预训练
提出了一种对比预测编码的改进方法,最大化先验知识模型表示与预训练模型输出之间的互信息,相比仅使用对比预测编码预训练降低了词错误率。
隐式声学回声消除
通过隐式声学回声消除机制,在客户语音与设备播放重叠的情况下提高关键词检测和设备导向语音检测的召回率,最高提升达56%。
文本转SQL系统优化
通过生成预测SQL查询是否包含特定子句的查询计划,以及生成可用于匹配槽值前缀和缩写的模式,提高了文本转SQL系统的连贯性和正确性。
韵律表示粒度研究
在表达性语音合成中,研究发现词级表示在容量和可预测性之间取得了平衡,将合成语音与录音自然度差距缩小了90%。
CTC语音识别模型个性化
提出了一系列技术来偏置CTC模型的编码器和波束搜索解码器,在领域特定罕见词上的F1分数比强CTC基线提高了60%。
口音转换技术
研究使用标准化流进行口音转换的方法,包含三个步骤:重新映射语音条件、扭曲转换语音的持续时间,以及应用注意力机制隐式对齐源和目标语音序列。
残差适配器技术
在RNN-transducer模型上训练残差适配器,并通过适配器融合实时组合,新词召回率超过90%,词错误率相对退化小于1%。
低比特量化技术
引入具有自调整质心的压缩机制,实现了更简单且更通用的量化方案,与八位量化感知训练相比,内存占用节省30.73%,用户感知延迟减少31.75%。
技术领域
- 自动语音识别
- 自然语言理解
- 文本转语音
- 机器学习
- 语音技术