深度噪声抑制技术突破:实时与非实时系统双获奖

某中心团队在Interspeech 2020深度噪声抑制挑战赛中夺冠,其非实时系统获第一名,实时系统以仅4%CPU占用率获实时赛道第二名。技术采用改进U-Net卷积网络和感知优化方法,已应用于视频会议客户端。

技术成果

在Interspeech 2020深度噪声抑制挑战赛中,某机构团队在19支参赛队伍中取得最佳成绩:非实时语音增强赛道获得第一名(phase1 | phase2-final),实时语音增强赛道获得第二名。实时系统仅使用单个CPU核心4%的计算资源(基于i7-8565U测试),远低于比赛允许的上限。

技术背景

电子语音通信中的噪声和混响会降低语音清晰度,长时间收听低质量语音会导致听觉疲劳。新冠疫情下远程会议场景增多,该问题愈发突出。传统语音增强算法依赖手工调谐的语音和噪声模型,通常假设噪声恒定,虽对某些噪声类型(如车辆噪声)有效,但难以处理非平稳噪声(如键盘声、嘈杂人声)。

技术方案

实时系统

  • 通过直接优化语音的感知特征(频谱包络和发声特性),忽略感知无关因素
  • 在极低计算复杂度下实现业界领先的语音质量
  • 支持在计算资源与质量间灵活权衡(如附图展示不同CPU负载下的平均意见得分变化)

非实时系统

  • 采用改进的U-Net深度卷积网络
  • 以无妥协方式最大化增强语音的质量

评估与部署

  • 比赛采用盲测方式,由人类听众对处理后的音频样本进行评分(平均意见得分MOS)
  • 相关技术已应用于智能语音通信公告和全域接入功能
  • 目前已在某视频会议客户端的macOS和Windows版本中开放使用(支持30天免费专业版试用)

技术论文

团队发表两篇论文详细说明技术方法:

  1. 《PoCoNet:通过频率位置嵌入、半监督对话数据和偏置损失实现更好的语音增强》
  2. 《基于感知动机的全频带语音低复杂度实时增强方法》

未来展望

深度学习正深刻影响音频处理领域,但在数据增强、感知相关损失函数处理及未预见条件应对等方面仍存在挑战。

附图说明:

  1. 噪声语音样本频谱图(上)与降噪后样本频谱图(下)对比
  2. 实时系统在不同CPU负载下的平均意见得分变化曲线(红点标注参赛系统参数)
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计