在2020年11月举办的"声学场景与事件检测分类研讨会(DCASE 2020)“挑战赛中,某机构团队从117份参赛方案中脱颖而出,包揽前三名。该挑战赛要求参赛者通过机器(如风扇、泵或阀门)发出的声音判断其运行状态是否异常。
团队在研讨会上发表的两篇论文(论文1|论文2)阐述了两种不同的神经网络方法。其中首篇论文荣获研讨会最佳论文奖。
技术突破
-
分组掩码自编码密度估计器(Group MADE)
改进传统自回归神经密度估计方法,通过分组处理音频信号的频带特征,有效捕捉复合信号特征。该方法对输入数据顺序敏感,特别适合流式数据处理。 -
自监督分类模型
首创将自监督表示学习应用于音频异常检测。在没有异常训练数据的情况下,模型通过区分同类设备的不同实例学习特征表示,结合频谱扭曲和随机混合技术生成新实例数据。实验显示,该方法学习到的特征能清晰分离正常与异常样本(见下图对比)。
左图:原始声谱图 右图:自监督模型学习特征(蓝色正常样本/红色异常样本)
性能表现
在六类设备(风扇/泵/滑轨/阀门/玩具车/玩具传送带)测试中,团队方案的综合AUC(ROC曲线下面积)和pAUC(局部AUC)均领先。后续针对特定设备类型的优化取得更优结果:
设备类型 | 挑战赛成绩 | 优化后成绩 |
---|---|---|
风扇 | 0.92 AUC | 0.95 AUC |
阀门 | 0.89 AUC | 0.93 AUC |
工业应用价值
传统依靠人工听检的方式存在滞后性,而基于机器学习的早期异常检测能预测维护需求。团队开发的端到端监控系统已整合传感器、网关和机器学习模型,可检测振动(结构声)或温度异常。随着工业设备数据的积累,这类技术将在预测性维护领域发挥更大作用。