无监督异常检测新方法SEAD解析

本文介绍了一种名为SEAD的无监督异常检测方法,通过集成多个基础检测器并动态调整权重,实现在数据流中的高效异常识别。该方法在15项测试任务中表现优异,平均排名最高且方差最低,适用于实时数据流处理场景。

无监督通用异常检测方法

在许多工业和在线应用中,实时数据流中的异常检测至关重要。异常可能表示制造缺陷、系统故障、安全漏洞或其他重要事件。

典型的基于机器学习的异常检测系统采用监督式训练,但在线环境中数据多样性高且分布频繁变化,使得数据收集和标注成本高昂。此外,没有单一异常检测模型能在所有数据类型上表现最佳。

SEAD方法

在2025年国际机器学习会议(ICML)上提出的SEAD方法,通过异常检测器流式集成来解决这些问题。SEAD具有以下特点:

  • 使用异常检测模型集成,始终为每种数据类型提供最佳模型
  • 以无监督方式运行,训练期间不需要标注异常数据
  • 在在线环境中高效工作,动态适应数据变化

评估结果

在15项不同任务中,SEAD与13个基线方法比较:

  • 获得最高平均排名(5.07)
  • 具有最低方差(6.64)

核心洞察:奖励保守性

SEAD的基本洞察是异常事件很少发生。因此,它为集成中 consistently 产生较低异常分数的模型分配更高权重。由于不同基础检测器使用不同的评分系统,SEAD通过根据历史分数分布将其分配到不同分位数来标准化分数。

权重计算

使用乘法权重更新(MWU)机制计算权重:

  1. 每个基础检测器初始化起始权重
  2. 每轮结束时,新权重是旧权重与学习率乘以该轮标准化异常分数负指数的乘积
  3. 所有权重归一化求和为1

持续输出较大分数的检测器将获得较低权重。技术洞察是将最初为监督设置提出的经典MWU思想应用于无监督异常检测。

计算效率优化

SEAD++通过按权重比例随机采样集成模型子集,实现约两倍的加速,且精度损失最小。在计算资源受限的使用场景中是很有前景的替代方案。

SEAD代表了流数据异常检测领域的重大进展,通过实时智能选择性能最佳的模型,确保可靠高效的异常检测。其无监督、在线特性和适应性使其成为各种应用的宝贵工具。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计