深度噪声抑制技术突破：实时与非实时系统双获奖

深度噪声抑制技术突破：实时与非实时系统双获奖

某中心团队在Interspeech 2020深度噪声抑制挑战赛中夺冠，其非实时系统获第一名，实时系统以仅4%CPU占用率获实时赛道第二名。技术采用改进U-Net卷积网络和感知优化方法，已应用于视频会议客户端。

技术成果

在Interspeech 2020深度噪声抑制挑战赛中，某机构团队在19支参赛队伍中取得最佳成绩：非实时语音增强赛道获得第一名（phase1 | phase2-final），实时语音增强赛道获得第二名。实时系统仅使用单个CPU核心4%的计算资源（基于i7-8565U测试），远低于比赛允许的上限。

技术背景

电子语音通信中的噪声和混响会降低语音清晰度，长时间收听低质量语音会导致听觉疲劳。新冠疫情下远程会议场景增多，该问题愈发突出。传统语音增强算法依赖手工调谐的语音和噪声模型，通常假设噪声恒定，虽对某些噪声类型（如车辆噪声）有效，但难以处理非平稳噪声（如键盘声、嘈杂人声）。

技术方案

实时系统：

通过直接优化语音的感知特征（频谱包络和发声特性），忽略感知无关因素
在极低计算复杂度下实现业界领先的语音质量
支持在计算资源与质量间灵活权衡（如附图展示不同CPU负载下的平均意见得分变化）

非实时系统：

采用改进的U-Net深度卷积网络
以无妥协方式最大化增强语音的质量

评估与部署

比赛采用盲测方式，由人类听众对处理后的音频样本进行评分（平均意见得分MOS）
相关技术已应用于智能语音通信公告和全域接入功能
目前已在某视频会议客户端的macOS和Windows版本中开放使用（支持30天免费专业版试用）

技术论文

团队发表两篇论文详细说明技术方法：

《PoCoNet：通过频率位置嵌入、半监督对话数据和偏置损失实现更好的语音增强》
《基于感知动机的全频带语音低复杂度实时增强方法》

未来展望

深度学习正深刻影响音频处理领域，但在数据增强、感知相关损失函数处理及未预见条件应对等方面仍存在挑战。

附图说明：

噪声语音样本频谱图（上）与降噪后样本频谱图（下）对比

实时系统在不同CPU负载下的平均意见得分变化曲线（红点标注参赛系统参数）

comments powered by Disqus