深度噪声抑制技术突破:实时与非实时系统双优

某中心团队在Interspeech 2020深度噪声抑制挑战赛中斩获非实时赛道冠军,实时赛道亚军。其创新系统在仅占用4%CPU资源的严苛条件下实现业界领先的语音降噪效果,通过改进U-Net卷积网络和感知优化技术显著提升语音质量。

某中心团队荣获Interspeech 2020深度噪声抑制挑战赛冠军

在电子语音通信中,噪声和混响不仅降低语音清晰度,长时间聆听劣质语音更会导致听觉疲劳。随着远程会议需求激增,深度噪声抑制技术显得尤为重要。本届Interspeech会议的深度噪声抑制挑战赛设立实时与非实时语音增强双赛道,某中心从19支参赛团队中脱颖而出,非实时赛道荣获第一(阶段1 | 阶段2决赛),实时赛道位列第二。

技术突破与性能表现

为满足实际应用需求,实时系统被严格限制在仅使用4%的CPU资源(基于i7-8565U核心测试),远低于赛事允许上限。尽管如此,该实时系统与冠军成绩仅差0.03平均意见分(MOS),同时超越了所有非实时参赛系统。音频效果示例可通过此链接体验。

核心技术方案

感知优化创新

传统语音增强算法依赖手工调谐的语音噪声模型,通常假设噪声恒定。这类方法对某些噪声类型(如车辆噪声)在低噪环境表现尚可,但难以处理非平稳噪声(如键盘声、嘈杂人声)。研究团队突破性地引入人类感知优化机制,直接优化语音的感知特征(频谱包络和发声特性),忽略感知无关要素,在保证计算高效的同时实现顶尖语音质量。

双系统架构设计

  • 非实时系统:采用改进型U-Net深度卷积网络,以无损质量为目标极致提升语音清晰度
  • 实时系统:通过感知驱动算法在4%CPU限制下达成近冠军级表现

技术应用与验证

获奖技术已应用于智能通讯公告和全域接入功能,并正式向视频会议用户开放。用户可通过下载某会议客户端体验30天专业版试用。

赛事采用盲测评估机制,经处理的音频样本由人类听众评分产生MOS值。研究表明,实时应用中复杂度与质量存在固有权衡(图示MOS随CPU占用率变化曲线),红色标点代表参赛系统的性能平衡点。

未来展望

深度学习正深刻变革音频处理领域,但在数据增强、感知相关损失函数设计及未知场景适应等方面仍存在挑战,技术发展前景令人期待。


相关论文

  • 《PoCoNet:通过频率位置嵌入、半监督会话数据和偏置损失实现更优语音增强》
  • 《基于感知动机的全频带语音低复杂度实时增强方法》

技术细节详见上述发表于Interspeech 2020的学术论文

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计