深度学习降噪技术解析

本文深入解析了结合经典信号处理与深度学习的实时语音降噪技术,通过等效矩形带宽频带划分和梳状滤波技术,在保证音质的同时大幅降低计算复杂度,实现移动设备的高效运行。

某中心Chime降噪技术的工作原理

结合经典信号处理与深度学习的方法,使降噪技术高效到足以在手机上运行。

核心技术:PercepNet

PercepNet是某中心Chime语音聚焦功能的核心技术之一。该技术旨在实时抑制语音信号中的噪声和混响,且不占用过多CPU资源,使其能够应用于手机等功耗受限设备。在Interspeech 2020的深度噪声抑制挑战赛中,PercepNet在实时处理类别中获得第二名,仅占用单核CPU的4%资源。

技术实现原理

频谱表示与挑战

采用短时傅里叶变换(STFT)将信号分割为重叠窗口并计算每个窗口的频率内容。每个N样本窗口产生N/2个频谱幅度及相应相位。传统方法需要估计400个频率bin的幅度,计算成本高昂。

感知相关表示优化

通过两个关键假设简化问题:

  1. 语音频谱形状平滑无突变
  2. 人耳听觉系统对低频分辨率更高

采用等效矩形带宽(ERB)间距的频带划分,将频谱分为34个重叠频带(原需400个频率bin),大幅降低计算复杂度。每个频带计算0-1之间的增益值,然后进行插值处理。

梳状滤波技术

针对语音中 tonal( voiced声音)和 noise(unvoiced声音)成分的特性,采用时域梳状滤波技术。通过基音周期估计(使用Viterbi算法保持轨迹一致性),对 tonal成分进行增强,并通过频域混合控制 tonal/noise比例。

后处理优化

通过进一步衰减噪声频带(虽然会轻微偏离正确频谱包络),利用人耳听觉特性提升主观听感。该后滤波技术自1980年代起用于语音编解码器。

深度学习集成

DNN模型仅需估计34个频带增益和34个梳状滤波强度(共68个参数),远低于传统400个幅度/增益的估计需求。模型采用时间卷积层和循环层(GRU/LSTM)提供长期记忆,使用800万权重参数。

实时运行优化

通过8位权重量化(利用现代CPU的SIMD指令),在笔记本电脑CPU上实时运行仅需单核5%资源。采用20毫秒窗口50%重叠,与WebRTC的Opus编解码器包大小匹配,避免额外延迟。算法总延迟控制在30毫秒内,满足实时通信需求。

应用前景

该技术可扩展应用于声学回声控制、波束成形后滤波等领域,并可通过Web Assembly(WASM)在浏览器中运行,支持基于WebRTC的应用。

相关论文:《基于感知动机的低复杂度全频带语音实时增强方法》

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计