无监督通用异常检测方法
在许多工业和在线应用中,实时数据流中的异常检测至关重要。异常可能表示制造缺陷、系统故障、安全漏洞或其他重要事件。
典型的基于机器学习的异常检测系统采用监督式训练,但在线环境中数据多样性高且分布频繁变化,使得数据收集和标注成本高昂。此外,没有单一异常检测模型能在所有数据类型上表现最佳。
SEAD方法
在2025年国际机器学习会议(ICML)上提出的SEAD方法,通过异常检测器流式集成来解决这些问题。SEAD具有以下特点:
- 使用异常检测模型集成,始终为每种数据类型提供最佳模型
- 以无监督方式运行,训练期间不需要标注异常数据
- 在在线环境中高效工作,动态适应数据变化
评估结果
在15项不同任务中,SEAD与13个基线方法比较:
- 获得最高平均排名(5.07)
- 具有最低方差(6.64)
核心洞察:奖励保守性
SEAD的基本洞察是异常事件很少发生。因此,它为集成中 consistently 产生较低异常分数的模型分配更高权重。由于不同基础检测器使用不同的评分系统,SEAD通过根据历史分数分布将其分配到不同分位数来标准化分数。
权重计算
使用乘法权重更新(MWU)机制计算权重:
- 每个基础检测器初始化起始权重
- 每轮结束时,新权重是旧权重与学习率乘以该轮标准化异常分数负指数的乘积
- 所有权重归一化求和为1
持续输出较大分数的检测器将获得较低权重。技术洞察是将最初为监督设置提出的经典MWU思想应用于无监督异常检测。
计算效率优化
SEAD++通过按权重比例随机采样集成模型子集,实现约两倍的加速,且精度损失最小。在计算资源受限的使用场景中是很有前景的替代方案。
SEAD代表了流数据异常检测领域的重大进展,通过实时智能选择性能最佳的模型,确保可靠高效的异常检测。其无监督、在线特性和适应性使其成为各种应用的宝贵工具。