基于潜在扩散模型的差分隐私文档图像生成技术DP-DocLDM

Thu, 11 Sep 2025 08:47:46 +0800

DP-DocLDM：使用潜在扩散模型进行差分隐私文档图像生成

摘要

随着基于深度学习的、数据驱动的信息提取系统日益融入现代文档处理工作流，一个主要关切是这些系统中敏感私有数据恶意泄露的风险。虽然近期一些研究探索了差分隐私（DP）以缓解这些隐私风险，但基于DP的训练已知会导致显著的性能下降，并对标准训练程序施加若干限制，使其直接应用于下游任务既困难又昂贵。在本工作中，我们旨在通过用合成对应物替代真实私有数据，在文档图像分类的背景下解决上述挑战。具体而言，我们提出结合条件潜在扩散模型（LDMs）与差分隐私（DP），在严格隐私约束下生成类别特定的合成文档图像，随后可用于按照标准训练程序训练下游分类器。我们在多种预训练设置下研究我们的方法，包括无条件、类别条件和布局条件预训练，结合多种私有训练策略，如使用DPDM和DP-Promise算法进行类别条件和每标签私有微调。此外，我们在两个知名文档基准数据集RVL-CDIP和Tobacco3482上评估该方法，并展示其能够在各种文档类型和隐私级别（(\varepsilon \in {1, 5, 10})）下生成有用且真实的文档样本。最后，我们表明，与直接应用DP-Adam相比，我们的方法在小规模数据集的下游评估中实现了显著的性能改进。

潜在扩散模型 on 办公AI智能小助手

基于潜在扩散模型的差分隐私文档图像生成技术DP-DocLDM

DP-DocLDM：使用潜在扩散模型进行差分隐私文档图像生成

摘要