隐秘而有效:针对图分类的分布保持型后门攻击
图神经网络(GNNs)在节点分类、链接预测和图分类等任务中表现出色,但仍容易受到后门攻击的影响——这类攻击在训练过程中植入难以察觉的触发器以控制预测结果。虽然节点级攻击利用了局部消息传递机制,但图级攻击面临更严峻的挑战:需要在保持隐蔽性的同时操纵全局表示。
我们发现现有图分类后门方法存在两个主要异常来源:
- 罕见子图触发器导致的结构偏差
- 标签翻转引起的语义偏差
这两者都使得被污染的图容易被异常检测模型识别。为解决这一问题,我们提出了DPSBA——一个通过异常感知判别器指导对抗训练来学习符合数据分布触发器的清洁标签后门框架。DPSBA有效抑制了结构和语义异常,在实现高攻击成功率的同时显著提升了隐蔽性。
在真实数据集上的大量实验验证表明,与最先进的基线方法相比,DPSBA在有效性和可检测性之间达到了更优越的平衡。
评论: 第39届神经信息处理系统大会(NeurIPS 2025)
研究领域:
- 机器学习(cs.LG)
- 密码学与安全(cs.CR)