技术成果
在Interspeech 2020深度噪声抑制挑战赛中,某机构团队在19支参赛队伍中取得最佳成绩:非实时语音增强赛道获得第一名(phase1 | phase2-final),实时语音增强赛道获得第二名。实时系统仅使用单个CPU核心4%的计算资源(基于i7-8565U测试),远低于比赛允许的上限。
技术背景
电子语音通信中的噪声和混响会降低语音清晰度,长时间收听低质量语音会导致听觉疲劳。新冠疫情下远程会议场景增多,该问题愈发突出。传统语音增强算法依赖手工调谐的语音和噪声模型,通常假设噪声恒定,虽对某些噪声类型(如车辆噪声)有效,但难以处理非平稳噪声(如键盘声、嘈杂人声)。
技术方案
实时系统:
- 通过直接优化语音的感知特征(频谱包络和发声特性),忽略感知无关因素
- 在极低计算复杂度下实现业界领先的语音质量
- 支持在计算资源与质量间灵活权衡(如附图展示不同CPU负载下的平均意见得分变化)
非实时系统:
- 采用改进的U-Net深度卷积网络
- 以无妥协方式最大化增强语音的质量
评估与部署
- 比赛采用盲测方式,由人类听众对处理后的音频样本进行评分(平均意见得分MOS)
- 相关技术已应用于智能语音通信公告和全域接入功能
- 目前已在某视频会议客户端的macOS和Windows版本中开放使用(支持30天免费专业版试用)
技术论文
团队发表两篇论文详细说明技术方法:
- 《PoCoNet:通过频率位置嵌入、半监督对话数据和偏置损失实现更好的语音增强》
- 《基于感知动机的全频带语音低复杂度实时增强方法》
未来展望
深度学习正深刻影响音频处理领域,但在数据增强、感知相关损失函数处理及未预见条件应对等方面仍存在挑战。
附图说明:
- 噪声语音样本频谱图(上)与降噪后样本频谱图(下)对比
- 实时系统在不同CPU负载下的平均意见得分变化曲线(红点标注参赛系统参数)