图数据异常检测的扩散建模技术

本文介绍了一种基于变分图自编码器和扩散模型的图数据异常检测方法,通过在潜在表示空间进行扩散建模生成合成训练数据,在15个实验中的13个取得最优性能,解决了图数据中异常样本稀缺的训练难题。

图数据异常检测的扩散建模技术

异常检测是指识别与既定规范显著偏离的数据,这些数据可能指示有害活动。对于基于图的数据,异常检测尤其具有挑战性,因为它不仅基于数据值,还基于图内的拓扑关系。由于异常往往罕见,很难找到足够的样本来训练机器学习模型以应对图中异常检测的复杂性。

在国际会议WSDM 2024上发表的论文中,描述了一种为基于图的异常检测器合成训练数据的新方法。该方法将变分图自编码器(学习可用于生成随机样本的概率分布)与扩散建模(学习将随机噪声转换为可理解输出)相结合。

在测试中,比较了使用该方法生成的合成数据训练的异常检测器与使用五种先前数据增强方法训练的检测器。在五个数据集上使用三种不同指标进行比较,共进行15个实验。其中13个实验中,该模型表现最佳;另外两个实验中不同模型表现最佳。

基于图的建模

图是表示数据通过网络移动的自然方式,无论是计算机网络、通信网络还是交互网络(如电子商务网站上买卖双方之间的交互)。因此,图中的异常检测有助于检测服务器攻击、垃圾邮件、欺诈和其他类型的滥用。

近年来,与大多数领域一样,图分析受益于深度学习。图神经网络迭代构建图表示:首先嵌入图中节点对应的数据;然后生成结合节点嵌入和相邻节点嵌入的嵌入;接着生成结合这些更高级别嵌入的嵌入;依此类推,直到某个固定终止点。最终,模型生成捕获图整个邻域信息的嵌入(实验中决定使用四跳邻域)。

图的复杂性(需要拓扑和定量表示数据)意味着分析它们的模型需要额外的训练数据,而这些数据在现实中可能稀缺。因此需要合成训练数据。

潜在空间扩散

数据合成模型的核心是变分图自编码器。“自编码器”意味着它被训练输出与接收输入相同的数据。然而,在输入和输出层之间是一个瓶颈层,迫使网络学习输入的压缩表示。

“变分”意味着模型的训练目标不仅鼓励忠实再现输入,还鼓励学习其分布符合某些预设形状(如高斯分布)的压缩表示。这意味着在数据合成阶段,从该分布中随机采样可能产生看起来真实的数据。

自编码器的压缩表示定义了一个表示空间,正是在该空间内应用扩散建模。自编码器生成输入图的嵌入,模型迭代地向其添加噪声。然后去噪器以相反方向执行相同过程,迭代地去噪嵌入。

这实际上是确保合成数据看起来像真实数据的第二次检查。如果自编码器学习的分布未完全捕获异常数据的特征,添加噪声可以“模糊”错误表征的特征。然后去噪步骤用与训练数据更一致的特征填充模糊的特征。

数据合成

该方法还有其他几个旨在提高合成数据质量的特点。一是扩散过程后,重构的图嵌入传递到不止一个而是几个解码器,每个专门用于图的不同方面。

至少有两个解码器,一个用于节点特征,一个用于图结构。如果相关图包括时间序列数据,则使用第三个解码器为节点分配时间戳。

另一个特点是在训练期间,将图节点标记为异常或正常,然后在正例和负例上训练。这有助于模型学习两者之间的区别。但也意味着模型学习了以类别标签为条件的分布,因此在合成过程中,可以引导它朝向会产生包含异常的图的样本。

最后,模型必须能够生成异构图(即具有不同节点和边类型的图)。例如,在电子商务设置中,节点可能代表买家、卖家和产品页面,而边可能代表购买、产品查看、评论等。

因此,作为自编码器中的编码器,使用异构图变换器,该模块有几处修改使其能够处理异构图,包括用于不同节点或边类型的单独注意力机制。

总之,模型的这些特点使其能够超越前辈,在论文中报告了一项消融研究,显示这些特点中的每一个都对模型的成功有显著贡献。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计