在现代数据集中,单个记录可能拥有多个所有者,实施用户级差分隐私需要限制每个用户的总贡献量。这种"贡献边界"机制带来了显著的组合挑战。现有串行算法计算密集,难以适应当前海量数据集的规模需求。
为解决这一可扩展性瓶颈,我们提出了一种高效的分布式算法。该方法将复杂的所有权结构建模为超图:用户作为顶点,记录作为超边。算法采用多轮处理机制,允许用户并行提交记录提案。仅当某条记录的所有所有者达成一致同意时,该记录才会被纳入最终数据集,从而确保不违反任何用户预设的贡献上限。
该技术方案具有以下创新点:
- 通过超图抽象精确建模多方所有权关系
- 采用分布式并行处理架构提升计算效率
- 在保证隐私约束的前提下最大化输出数据集规模
- 为实际大规模系统提供可行的用户级隐私实现方案
实验结果表明,相比传统串行方法,本算法在千万级规模数据集上可实现两个数量级的性能提升,同时保持相同的隐私保障水平。这项研究为大数据环境下的隐私保护提供了新的技术路径。