无监督通用异常检测方法实现突破
集成模型根据其标记异常的谨慎程度进行加权,性能超越先前方法。
在许多现代工业和在线应用中,实时数据流中的异常检测(即罕见、意外事件)至关重要。异常可能指示制造缺陷、系统故障、安全漏洞或其他重要事件。典型的基于机器学习的异常检测系统以监督方式训练,使用标注示例。但在许多在线场景中,数据极其多样且分布不断变化,收集和标注数据成本高昂。
此外,没有单一的异常检测(AD)模型在所有数据类型上均表现最佳。例如,某些AD模型对一类客户有效,而其他模型对另一类客户有效。但由于客户工作负载常随时间变化,最佳AD模型也随之变化,因此预先确定使用哪种模型并不容易。
在某机构2025年国际机器学习会议(ICML)上发表的论文中,提出了一种名为SEAD(流式异常检测集成)的方法来解决这些问题。SEAD使用异常检测模型集成,因此总能针对每种数据类型调用最佳模型,并以无监督方式运行,在训练期间不需要标注异常数据。它在在线设置中高效工作,处理流入的数据,并动态适应数据变化。
为评估SEAD,将其与三个先前的异常检测模型(每个有四种超参数设置)和一个基于规则的方法进行比较,共13个基线。在15项不同任务中,SEAD平均排名最高(5.07),方差最低(6.64)。
奖励谨慎性
SEAD的基本见解是异常是罕见的。因此,SEAD为集成中持续产生较低异常分数的模型(或“基础检测器”)分配较高权重。由于不同的基础检测器使用不同的评分系统,SEAD根据过去分数的分布将其分配到不同分位数来标准化它们的分数。
为计算权重,使用乘性权重更新(MWU)机制,这是专家系统中的标准方法。使用MWU时,每个基础检测器以起始权重初始化。每轮结束时,每个基础检测器的新权重是其旧权重与学习率乘以该轮输出的标准化异常分数的负指数的乘积。
所有基础检测器以这种方式更新后,其权重被标准化以使总和为1。通过此过程,持续输出较大分数的检测器将开始获得较低权重。该工作的技术见解是将最初为监督设置提出的经典MWU思想应用于异常检测的无监督设置。
在模型评估期间,能够看到算法根据输入数据重新加权基础检测器。在一个数据集上,SEAD为两个不同模型分配高权重,这两个模型在涉及真实异常数据的测试阶段均持续识别异常。然而,在该阶段后,在清洁数据上,其中一个模型继续触发,SEAD迅速降低其权重。
为进一步研究SEAD适当加权模型的能力,在集成中增加了13个随机生成分数的额外算法。在测试集上,SEAD的准确率仅下降0.88%,表明更新算法在快速淘汰不可靠模型方面表现良好。
计算效率
像SEAD这样的集成方法的一个缺点是同时运行多个模型会产生计算开销。为解决此问题,尝试了一种名为SEAD++的方法,随机采样集成模型的子集,概率与其权重成正比。这导致相对于原始SEAD大约两倍的加速,且准确性损失最小。因此,在计算资源稀缺的使用案例中,SEAD++是一个有前途的替代方案。
SEAD代表了流式数据异常检测领域的重大进展。通过实时从候选池中智能选择性能最佳的模型,确保可靠高效的异常检测。其无监督、在线性质结合适应性,使其成为各种应用的有价值工具,为流式环境中的异常检测设定了新标准。