某机构团队包揽音频异常检测挑战赛前三名

在2020年11月举办的"声学场景与事件检测分类研讨会（DCASE 2020）“挑战赛中，某机构团队从117份参赛方案中脱颖而出，包揽前三名。该挑战赛要求参赛者通过机器（如风扇、泵或阀门）发出的声音判断其运行状态是否异常。

团队在研讨会上发表的两篇论文（论文1|论文2）阐述了两种不同的神经网络方法。其中首篇论文荣获研讨会最佳论文奖。

分组掩码自编码密度估计器（Group MADE）
改进传统自回归神经密度估计方法，通过分组处理音频信号的频带特征，有效捕捉复合信号特征。该方法对输入数据顺序敏感，特别适合流式数据处理。
自监督分类模型
首创将自监督表示学习应用于音频异常检测。在没有异常训练数据的情况下，模型通过区分同类设备的不同实例学习特征表示，结合频谱扭曲和随机混合技术生成新实例数据。实验显示，该方法学习到的特征能清晰分离正常与异常样本（见下图对比）。

左图：原始声谱图右图：自监督模型学习特征（蓝色正常样本/红色异常样本）

在六类设备（风扇/泵/滑轨/阀门/玩具车/玩具传送带）测试中，团队方案的综合AUC（ROC曲线下面积）和pAUC（局部AUC）均领先。后续针对特定设备类型的优化取得更优结果：

设备类型	挑战赛成绩	优化后成绩
风扇	0.92 AUC	0.95 AUC
阀门	0.89 AUC	0.93 AUC

传统依靠人工听检的方式存在滞后性，而基于机器学习的早期异常检测能预测维护需求。团队开发的端到端监控系统已整合传感器、网关和机器学习模型，可检测振动（结构声）或温度异常。随着工业设备数据的积累，这类技术将在预测性维护领域发挥更大作用。

研讨会提供的完整排行榜和开发数据集为后续研究提供基准。团队表示正在开发第三种改进方法，细节将在未来公布。