技术原理概述
PercepNet作为某中心Chime语音聚焦功能的核心技术,采用深度学习与传统信号处理相结合的方法,在保证实时性的前提下实现全频带语音增强。该技术在Interspeech 2020深度噪声抑制挑战赛中,以仅占用4%CPU核心资源的优势获得实时处理类别第二名。
频谱表示优化
传统方法使用短时傅里叶变换(STFT)处理400个频率bin,而PercepNet创新性地采用等效矩形带宽(ERB)频带划分,将频谱表示为34个重叠的频带。这种非线性频率分辨率更符合人耳听觉特性,同时显著降低了模型复杂度。
音调与噪声分离处理
针对语音中音调(元音)和噪声(辅音)的不同特性,系统通过梳状滤波技术增强周期性音调成分。首先通过自相关算法估计基音频率,再利用动态规划(Viterbi算法)确保基音轨迹的时间连续性,最后在频域实现音调与噪声的精确混合控制。
深度学习模型设计
神经网络仅需预测34个频带增益和34个梳状滤波强度参数,采用包含800万权重的GRU循环神经网络结构。通过8位量化技术和SIMD指令优化,在现代笔记本电脑CPU上实现实时处理,延迟控制在30毫秒以内。
实际应用表现
该系统支持20毫秒音频帧处理,与WebRTC的Opus编解码器完美兼容。通过后滤波技术进一步抑制残留噪声,在保持语音自然度的同时显著提升信噪比。未来该技术可扩展至声学回声控制和波束成形后处理等应用场景。
相关技术细节可参考Interspeech 2020论文《A perceptually motivated approach for low-complexity, real-time enhancement of fullband speech》