ZIUM:针对未学习模型的零样本意图感知对抗攻击
摘要
机器学习中的未学习(Machine Unlearning, MU)技术旨在从深度学习模型中移除特定数据点或概念,以增强隐私保护并防止生成敏感内容。然而,对抗性提示(adversarial prompts)可能利用未学习模型生成包含已移除概念的内容,从而构成严重的安全风险。现有的对抗攻击方法在生成符合攻击者意图的内容方面仍面临挑战,且识别成功提示的计算成本较高。
为解决这些问题,我们提出了ZIUM(Zero-shot Intent-aware adversarial attack on Unlearned Models),一种零样本意图感知对抗攻击方法。ZIUM能够灵活定制目标攻击图像以反映攻击者意图,同时支持对先前攻击过的未学习概念进行零样本对抗攻击,无需进一步优化。
评估结果
在多种MU场景下的评估表明,ZIUM能够成功根据用户意图提示定制内容,并在攻击成功率上优于现有方法。此外,其零样本对抗攻击显著减少了针对先前攻击过的未学习概念的攻击时间。
评论
该论文已被ICCV2025接受。
主题分类
- 计算机视觉与模式识别(cs.CV)
- 密码学与安全(cs.CR)
引用信息
arXiv:2507.21985 [cs.CV]
(或当前版本 arXiv:2507.21985v1 [cs.CV])
DOI: 10.48550/arXiv.2507.21985
提交历史
- 提交日期:2025年7月29日星期二 16:36:01 UTC
- 提交作者:Hyun Jun Yook
- 版本:v1
- 文件大小:45,863 KB
全文链接
相关工具与资源
- Bibliographic Explorer
- Connected Papers
- Litmaps
- scite Smart Citations
- alphaXiv
- CatalyzeX Code Finder
- DagsHub
- GotitPub
- Hugging Face
- Papers with Code
- ScienceCast
- Replicate
- Hugging Face Spaces
- TXYZ.AI
作者信息
作者:Hyun Jun Yook, Ga San Jhun, Jae Hyun Cho, Min Jeon, Donghyun Kim, Tae Hyung Kim, Youn Kyu Lee
其他作者:6人
附加信息
- 当前浏览上下文:cs.CV
- 变更浏览方式:cs, cs.CR
- NASA ADS
- Google Scholar
- Semantic Scholar
关于arXiv
- arXivLabs:允许社区合作者直接在我们的网站上开发和分享新功能的实验性项目框架。
- 联系arXiv:点击此处联系
- 订阅arXiv邮件:点击此处订阅
版权与隐私
- 版权声明
- 隐私政策
- 网站无障碍辅助
- arXiv运营状态:通过电子邮件或Slack接收状态通知