DP-DocLDM:使用潜在扩散模型进行差分隐私文档图像生成
摘要
随着基于深度学习的、数据驱动的信息提取系统日益融入现代文档处理工作流,一个主要关切是这些系统中敏感私有数据恶意泄露的风险。虽然近期一些研究探索了差分隐私(DP)以缓解这些隐私风险,但基于DP的训练已知会导致显著的性能下降,并对标准训练程序施加若干限制,使其直接应用于下游任务既困难又昂贵。在本工作中,我们旨在通过用合成对应物替代真实私有数据,在文档图像分类的背景下解决上述挑战。具体而言,我们提出结合条件潜在扩散模型(LDMs)与差分隐私(DP),在严格隐私约束下生成类别特定的合成文档图像,随后可用于按照标准训练程序训练下游分类器。我们在多种预训练设置下研究我们的方法,包括无条件、类别条件和布局条件预训练,结合多种私有训练策略,如使用DPDM和DP-Promise算法进行类别条件和每标签私有微调。此外,我们在两个知名文档基准数据集RVL-CDIP和Tobacco3482上评估该方法,并展示其能够在各种文档类型和隐私级别((\varepsilon \in {1, 5, 10}))下生成有用且真实的文档样本。最后,我们表明,与直接应用DP-Adam相比,我们的方法在小规模数据集的下游评估中实现了显著的性能改进。
评论
已接受于ICDAR 2025。
主题
密码学与安全(cs.CR)
引用为
arXiv:2508.04208 [cs.CR](或此版本的arXiv:2508.04208v1 [cs.CR])
提交历史
来自:Saifullah Saifullah [查看电子邮件] [v1] 2025年8月6日星期三 08:43:08 UTC(11,564 KB)
全文链接
- 查看PDF:查看题为“DP-DocLDM: Differentially Private Document Image Generation using Latent Diffusion Models”的论文PDF,作者Saifullah Saifullah及其他三位作者
- HTML(实验性)
- TeX源文件
- 其他格式
许可
查看许可
当前浏览上下文
cs.CR
参考文献与引用
- NASA ADS
- Google Scholar
- Semantic Scholar
书目工具
- 书目浏览器
- 关联论文
- Litmaps
- scite.ai智能引用
代码、数据、媒体
与本文相关的代码、数据和媒体
演示
- Replicate
- Hugging Face Spaces
- TXYZ.AI
相关论文
推荐器和搜索工具
关于arXivLabs
arXivLabs:与社区合作者进行的实验项目。