基于潜在扩散模型的差分隐私文档图像生成技术DP-DocLDM

本文提出DP-DocLDM方法,结合条件潜在扩散模型与差分隐私技术,在严格隐私约束下生成类别特定的合成文档图像,用于下游分类器训练,并在RVL-CDIP和Tobacco3482数据集上验证了其有效性和实用性。

DP-DocLDM:使用潜在扩散模型进行差分隐私文档图像生成

摘要

随着基于深度学习的、数据驱动的信息提取系统日益融入现代文档处理工作流,一个主要关切是这些系统中敏感私有数据恶意泄露的风险。虽然近期一些研究探索了差分隐私(DP)以缓解这些隐私风险,但基于DP的训练已知会导致显著的性能下降,并对标准训练程序施加若干限制,使其直接应用于下游任务既困难又昂贵。在本工作中,我们旨在通过用合成对应物替代真实私有数据,在文档图像分类的背景下解决上述挑战。具体而言,我们提出结合条件潜在扩散模型(LDMs)与差分隐私(DP),在严格隐私约束下生成类别特定的合成文档图像,随后可用于按照标准训练程序训练下游分类器。我们在多种预训练设置下研究我们的方法,包括无条件、类别条件和布局条件预训练,结合多种私有训练策略,如使用DPDM和DP-Promise算法进行类别条件和每标签私有微调。此外,我们在两个知名文档基准数据集RVL-CDIP和Tobacco3482上评估该方法,并展示其能够在各种文档类型和隐私级别((\varepsilon \in {1, 5, 10}))下生成有用且真实的文档样本。最后,我们表明,与直接应用DP-Adam相比,我们的方法在小规模数据集的下游评估中实现了显著的性能改进。

评论

已接受于ICDAR 2025。

主题

密码学与安全(cs.CR)

引用为

arXiv:2508.04208 [cs.CR](或此版本的arXiv:2508.04208v1 [cs.CR])

提交历史

来自:Saifullah Saifullah [查看电子邮件] [v1] 2025年8月6日星期三 08:43:08 UTC(11,564 KB)

全文链接

  • 查看PDF:查看题为“DP-DocLDM: Differentially Private Document Image Generation using Latent Diffusion Models”的论文PDF,作者Saifullah Saifullah及其他三位作者
  • HTML(实验性)
  • TeX源文件
  • 其他格式

许可

查看许可

当前浏览上下文

cs.CR

参考文献与引用

  • NASA ADS
  • Google Scholar
  • Semantic Scholar

书目工具

  • 书目浏览器
  • 关联论文
  • Litmaps
  • scite.ai智能引用

代码、数据、媒体

与本文相关的代码、数据和媒体

演示

  • Replicate
  • Hugging Face Spaces
  • TXYZ.AI

相关论文

推荐器和搜索工具

关于arXivLabs

arXivLabs:与社区合作者进行的实验项目。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计