新型声音检测技术突破现有最佳性能

本文介绍了一种创新的音频事件检测技术,通过改进知识蒸馏方法显著提升小型神经网络性能。该技术利用声学信号中的重复模式,通过层间输出相似性保持机制,在标准测试中相对基线模型取得27%-122%的性能提升,特别适用于智能设备端侧的声音识别场景。

新型声音检测方法实现技术突破

声音检测是当前智能扬声器的重要应用场景。当用户离家时启用安防功能,智能设备可检测玻璃破碎或烟雾报警器等声音并发送通知。声音检测(技术上称为音频事件检测)需在设备端运行,以确保网络中断时不遗漏安防事件。

知识蒸馏是压缩音频事件检测模型的常用技术,通过训练小模型模仿大模型输出实现模型轻量化。在某国际会议上提出的新方法,在标准精度召回曲线下面积指标上,相较现有最佳知识蒸馏技术实现27%至122%的相对提升。

技术原理创新

该方法利用声学信号中的重复模式(如警报声、犬吠等具有周期性特征的声响),提出语句内相似性保持知识蒸馏技术。与传统方法不同,新方法强制同一训练样本在不同网络层的输出保持相似性,使网络层输出反映输入信号的重复特征。

具体实现中,针对教师网络(大模型)的指定层,构建时间步自相关矩阵表征层输出在不同时间步的相关性。训练时,学生网络(小模型)不仅需匹配教师网络的最终输出,还需使归一化输出的自相关矩阵与教师网络保持一致。当学生网络层尺寸较小时,采用双线性插值法调整自相关矩阵尺寸。

实验验证

使用包含警报声、犬吠、撞击声等八类声音的标准数据集进行测试。相比无知识蒸馏的基线模型和其他知识蒸馏模型,新方法在最小学生模型上实现122%的相对性能提升,最大模型也有27%提升。这表明该方法在模型压缩场景具有实用价值,尤其适合资源受限的端侧设备。

该技术已应用于智能语音设备的音频事件检测系统,通过优化神经网络层间特征表示,显著提升了声音识别的准确性和可靠性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计