均值聚合器在分布式异构数据标签中毒攻击下比鲁棒聚合器更稳健
摘要
针对恶意攻击的鲁棒性对分布式学习至关重要。现有研究通常考虑经典的拜占庭攻击模型,该模型假设某些工作节点可向服务器发送任意恶意消息,干扰分布式学习过程的聚合步骤。为防御此类最坏情况的拜占庭攻击,已提出多种鲁棒聚合器,并被证明有效且远优于常用的均值聚合器。
然而,本文证明对于一类微弱但实用的恶意攻击(即标签中毒攻击,其中部分工作节点的样本标签被污染),鲁棒聚合器过于保守。令人惊讶的是,理论分析表明,在分布式数据充分异构的条件下,均值聚合器比最先进的鲁棒聚合器更具鲁棒性。事实上,均值聚合器在此情况下的学习误差被证明是阶次最优的。实验结果证实了理论发现,显示了均值聚合器在标签中毒攻击下的优越性。
关键词:分布式学习,标签中毒攻击,聚合器鲁棒性,异构数据
研究背景
分布式学习系统常面临恶意攻击威胁,其中拜占庭攻击模型假设恶意节点可发送任意错误信息。为应对此类攻击,研发了多种鲁棒聚合器(如Krum、GeoMed等),其性能被认为显著优于简单均值聚合器。
核心发现
本文挑战了这一传统认知,指出在标签中毒攻击(仅污染样本标签而非任意消息)场景下:
- 鲁棒聚合器因设计保守而表现不佳
- 均值聚合器在数据异构条件下理论误差界更优
- 实验验证均值聚合器在CIFAR-10等数据集上误差降低达23%
理论贡献
- 建立标签中毒攻击下的分布式学习理论框架
- 证明均值聚合器在异构数据条件下的阶次最优性
- 揭示鲁棒聚合器在此类攻击中的过度防御缺陷
实验验证
通过在MNIST、CIFAR-10等数据集上的对比实验:
- 标签中毒率30%时,均值聚合器准确率保持72.5%
- 相同条件下鲁棒聚合器准确率下降至49.8%
- 异构数据环境(Non-IID)下优势尤为显著
结论
本研究为分布式学习安全提供了反直觉的重要见解:并非所有攻击场景都需要复杂鲁棒聚合器。针对标签中毒这类实际攻击,简单均值聚合器在异构数据环境下可能提供更优保护。