声音检测新技术突破性能极限

本文介绍了一种创新的声学事件检测方法,通过改进知识蒸馏技术,在保持模型轻量化的同时显著提升检测精度。该方法利用音频信号中的重复模式,在标准测试中相对基线模型实现了27%至122%的性能提升,特别适用于智能设备上的实时声音识别应用。

声音检测新方法实现技术突破

声学事件检测(AED)是当今智能扬声器的热门应用。例如,用户离家时启用安防功能的客户,若其支持语音功能的设备检测到玻璃破碎或烟雾报警器等声音,就会收到通知。

声学事件检测需要设备端运行:家庭安防应用不能因瞬时网络连接丢失而错过烟雾报警。将AED模型适配到设备端的常用方法是知识蒸馏,即训练一个内存占用小的机器学习模型来复现更强大但体积更大的模型的输出。

在今年的国际语音通信大会上,某中心提出了一种用于AED系统知识蒸馏的新方法。在测试中,将该模型与无知识蒸馏的基线模型及采用最先进知识蒸馏技术的模型进行了比较。在精确召回曲线下面积(AUPRC)标准指标上,该模型相对于基线模型,比早期知识蒸馏模型提高了27%至122%。

该技术通过利用声学信号中的重复模式实现突破,这类重复在AED系统通常训练检测的声音类型中很常见:例如烟雾报警器警报或狗叫声具有大致重复的声学模式。

紧急车辆警报声的声谱图,映射了不同频段随时间变化的功率波动。信号中的重复清晰可见(粉金线条)。摘自《音频标记中的语句内相似性保持知识蒸馏》

虽然该系统在此类重复信号上对基线的改进最大,但在引擎和机械冲击等响亮单一声音上的性能也有所提升。

像大多数AED模型中使用的深度神经网络一样,该系统按层排列;输入数据馈送到底层,处理后将结果传递到下一层,依此类推。

以往研究通过使用相似性保持知识蒸馏技术改进了知识蒸馏,该技术依赖于共享标签的训练样本上不同网络层输出之间的相似性。例如,破碎玻璃的声音具有狗叫声所没有的某些声学特征,各层的输出应反映这一点。通过相似性保持知识蒸馏,教师模型推断的相似性有助于指导学生模型的训练。

该方法通过强制同一训练样本网络层输出之间的相似性来实现变化。即,网络层的输出应反映输入信号中的重复。因此将该方法称为语句内相似性保持(IUSP)知识蒸馏。

可以强制教师网络(较大网络)和学生网络(较小网络)任意层之间的相似性。对于教师模型的给定层,生成一个矩阵,将其在输入信号连续时间步上的输出与自身进行映射。矩阵单元格中的值表示该层在不同时间步输出之间的相关性。

上述警报声的自相关矩阵。中央对角线上的亮绿色线表示特定时间步输出与自身之间的强相关性。其他绿色对角线表示声学信号中的重复。摘自《音频标记中的语句内相似性保持知识蒸馏》

在训练过程中,不仅根据最终输出与教师模型的匹配程度评估学生模型,还根据其归一化输出的自相关矩阵与教师模型的匹配程度进行评估。

由于知识蒸馏的目标是缩小机器学习模型的尺寸,学生模型的层和中间特征通常比教师模型更小(处理节点更少)。在这种情况下,使用双线性插值使学生模型的自相关矩阵与教师模型的大小相同。即在矩阵中插入额外的行和列,每个添加单元格的值是水平和垂直方向上相邻单元格值之间的插值。

在实验中,使用了一个标准基准数据集,该数据集包含八类声音,包括警报声、狗叫声、冲击声和人声。

作为基线模型,使用了无知识蒸馏的标准AED网络。为评估模型,还将其与使用相似性保持知识蒸馏训练的模型进行了比较。

使用精确召回曲线下面积衡量模型性能,该指标表示假阳性和假阴性之间的权衡,并试验了四种不同尺寸的学生模型。根据知识蒸馏模型相对于基线模型的改进程度进行评估。

与其他知识蒸馏模型相比,该模型的最大改进(相对AUPRC提高122%)来自最小的学生模型。最小的改进(相对提高27%)来自最大的学生模型。由于知识蒸馏的目的是缩小学生模型的尺寸,这表明该方法可在实际场景中应用。

会议
国际语音通信大会2020

相关出版物
《音频标记中的语句内相似性保持知识蒸馏》

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计