Wukong Framework for Not Safe For Work Detection in Text-to-Image systems
摘要
文本到图像(T2I)生成是一种流行的AI生成内容(AIGC)技术,能够实现多样化和创造性的图像合成。然而,部分输出可能包含不适合工作场所(NSFW)的内容(例如暴力),违反社区准则。高效准确地检测NSFW内容(称为外部保护)至关重要。现有的外部保护分为两种类型:文本过滤器(分析用户提示但忽略T2I模型特定变体且易受对抗攻击)和图像过滤器(分析最终生成的图像但计算成本高且引入延迟)。扩散模型是现代T2I系统(如Stable Diffusion)的基础,通过使用具有ResNet和Transformer块的U-Net架构进行迭代去噪来生成图像。我们观察到:(1)早期去噪步骤定义了图像的语义布局,(2)U-Net中的交叉注意力层对于对齐文本和图像区域至关重要。基于这些见解,我们提出了Wukong,一种基于Transformer的NSFW检测框架,利用早期去噪步骤的中间输出并重用U-Net的预训练交叉注意力参数。Wukong在扩散过程中操作,无需等待完整图像生成即可实现早期检测。我们还引入了一个包含提示、种子和图像特定NSFW标签的新数据集,并在此数据集和两个公共基准上评估Wukong。结果表明,Wukong显著优于基于文本的保护措施,并达到与图像过滤器相当的准确性,同时提供更高的效率。
评论
评审中
主题
计算机视觉与模式识别(cs.CV);人工智能(cs.AI);密码学与安全(cs.CR)
引用为
arXiv:2508.00591 [cs.CV]
(或此版本的 arXiv:2508.00591v1 [cs.CV])
https://doi.org/10.48550/arXiv.2508.00591
提交历史
来自:Mingrui Liu [查看电子邮件] [v1]
2025年8月1日星期五 12:45:30 UTC(5,111 KB)
全文链接
访问论文:
查看标题为“Wukong Framework for Not Safe For Work Detection in Text-to-Image systems”的PDF,作者:Mingrui Liu及其他两位作者
查看PDF
HTML(实验性)
TeX源
其他格式
查看许可证
当前浏览上下文:cs.CV
< 上一篇 | 下一篇 >
新 | 最近 | 2025-08
更改浏览方式:
cs
cs.AI
cs.CR
参考文献与引用
NASA ADS
Google Scholar
Semantic Scholar
导出BibTeX引用
加载中…
BibTeX格式化引用
×
加载中…
数据提供者:
书签
书目工具
书目和引用工具
书目资源管理器切换
书目资源管理器(什么是资源管理器?)
关联论文切换
关联论文(什么是关联论文?)
Litmaps切换
Litmaps(什么是Litmaps?)
scite.ai切换
scite智能引用(什么是智能引用?)
代码、数据、媒体
与此文章相关的代码、数据和媒体
alphaXiv切换
alphaXiv(什么是alphaXiv?)
代码链接切换
CatalyzeX论文代码查找器(什么是CatalyzeX?)
DagsHub切换
DagsHub(什么是DagsHub?)
GotitPub切换
Gotit.pub(什么是GotitPub?)
Huggingface切换
Hugging Face(什么是Huggingface?)
代码链接切换
Papers with Code(什么是Papers with Code?)
ScienceCast切换
ScienceCast(什么是ScienceCast?)
演示
演示
Replicate切换
Replicate(什么是Replicate?)
Spaces切换
Hugging Face Spaces(什么是Spaces?)
Spaces切换
TXYZ.AI(什么是TXYZ.AI?)
相关论文
推荐器和搜索工具
影响花链接
影响花(什么是影响花?)
核心推荐器切换
CORE推荐器(什么是CORE?)
作者
场所
机构
主题
关于arXivLabs
arXivLabs:与社区合作者进行的实验项目
arXivLabs是一个框架,允许合作者直接在我们的网站上开发和共享新的arXiv功能。
与arXivLabs合作的个人和组织都接受并认同我们的开放、社区、卓越和用户数据隐私价值观。arXiv致力于这些价值观,并仅与遵守这些价值观的合作伙伴合作。
有想法为arXiv社区增加价值吗?了解更多关于arXivLabs的信息。
此论文的哪些作者是认可者? |
禁用MathJax(什么是MathJax?)
关于
帮助
联系arXiv点击此处联系arXiv
联系
订阅arXiv邮件点击此处订阅
订阅
版权
隐私政策
网络无障碍援助
arXiv运营状态
通过电子邮件或slack获取状态通知