图数据异常检测的扩散建模技术
研究背景
异常检测是指识别显著偏离既定规范的数据,这些数据可能表明存在有害活动。对于基于图的数据而言,异常检测尤为困难,因为检测不仅基于数据值,还基于图内的拓扑关系。由于异常往往罕见,很难找到足够的样本来训练机器学习模型以掌握图中异常检测的复杂性。
技术创新
在国际会议WSDM上提出的新方法,结合了变分图自编码器和扩散模型来合成图异常检测器的训练数据:
变分图自编码器架构
- 通过瓶颈层学习输入的压缩表示
- 训练目标使压缩表示的分布符合预设形状(如高斯分布)
- 在数据合成阶段,从该分布中随机采样可生成逼真数据
潜在空间扩散建模
- 在自编码器定义的表示空间内应用扩散模型
- 对输入图嵌入进行迭代加噪处理
- 通过去噪器执行反向过程,逐步恢复嵌入
技术特点
- 多解码器设计:至少包含节点特征和图结构两个解码器,时间序列数据可添加第三个解码器
- 异构图支持:采用异构图变换器作为编码器,支持不同节点和边类型
- 条件生成:训练时标注异常/正常节点,使模型学习按类别标签条件生成样本
实验成果
在五个数据集上使用三个不同指标进行15组实验对比:
- 13项实验中该方法表现最佳
- 其余2项实验由不同模型领先
- 消融研究证实每个技术特征都对模型成功有显著贡献
该方法特别适用于电子商务、网络安全等领域的异常检测场景,能有效识别服务器攻击、垃圾邮件、欺诈等滥用行为。