某中心Chime降噪技术的工作原理

结合经典信号处理与深度学习的方法，使降噪技术高效到足以在手机上运行。

核心技术：PercepNet

PercepNet是某中心Chime语音聚焦功能的核心技术之一。该技术旨在实时抑制语音信号中的噪声和混响，且不占用过多CPU资源，使其能够应用于手机等功耗受限设备。在Interspeech 2020的深度噪声抑制挑战赛中，PercepNet在实时处理类别中获得第二名，仅占用单核CPU的4%资源。

采用短时傅里叶变换（STFT）将信号分割为重叠窗口并计算每个窗口的频率内容。每个N样本窗口产生N/2个频谱幅度及相应相位。传统方法需要估计400个频率bin的幅度，计算成本高昂。

通过两个关键假设简化问题：

采用等效矩形带宽（ERB）间距的频带划分，将频谱分为34个重叠频带（原需400个频率bin），大幅降低计算复杂度。每个频带计算0-1之间的增益值，然后进行插值处理。

针对语音中 tonal（ voiced声音）和 noise（unvoiced声音）成分的特性，采用时域梳状滤波技术。通过基音周期估计（使用Viterbi算法保持轨迹一致性），对 tonal成分进行增强，并通过频域混合控制 tonal/noise比例。

通过进一步衰减噪声频带（虽然会轻微偏离正确频谱包络），利用人耳听觉特性提升主观听感。该后滤波技术自1980年代起用于语音编解码器。

DNN模型仅需估计34个频带增益和34个梳状滤波强度（共68个参数），远低于传统400个幅度/增益的估计需求。模型采用时间卷积层和循环层（GRU/LSTM）提供长期记忆，使用800万权重参数。

通过8位权重量化（利用现代CPU的SIMD指令），在笔记本电脑CPU上实时运行仅需单核5%资源。采用20毫秒窗口50%重叠，与WebRTC的Opus编解码器包大小匹配，避免额外延迟。算法总延迟控制在30毫秒内，满足实时通信需求。

该技术可扩展应用于声学回声控制、波束成形后滤波等领域，并可通过Web Assembly（WASM）在浏览器中运行，支持基于WebRTC的应用。

相关论文：《基于感知动机的低复杂度全频带语音实时增强方法》