深度学习中的架构后门:漏洞、检测与防御综述
架构后门对深度神经网络构成了一种未被充分审视但至关重要的威胁,其将恶意逻辑直接嵌入模型的计算图中。与传统的数据投毒或参数操纵不同,架构后门能够规避标准的缓解技术,甚至在经过干净重训练后仍然持续存在。
本综述系统性地整合了关于架构后门的研究,涵盖了编译器级操作、受污染的AutoML流程以及供应链漏洞。我们评估了新兴的检测和防御策略,包括静态图检查、动态模糊测试和部分形式验证,并强调了这些策略在面对分布式或隐蔽触发器时的局限性。
尽管近期取得了一些进展,但可扩展且实用的防御方法仍然难以实现。最后,我们概述了未解决的挑战,并提出了加强供应链安全、加密模型认证以及下一代基准测试的研究方向。本综述旨在指导未来研究,为深度学习系统中的结构性后门威胁构建全面防御体系。
评论:
35页,正在接受ACM Computing Surveys审稿
主题:
密码学与安全(cs.CR)
引用为:
arXiv:2507.12919 [cs.CR]
(或此版本的 arXiv:2507.12919v1 [cs.CR])
DOI:
https://doi.org/10.48550/arXiv.2507.12919
提交历史:
来自:Josh Collyer [查看邮箱]
[v1] 2025年7月17日 星期四 09:02:54 UTC (128 KB)