私有数据的安全计算
当今许多基于计算的创新产品和解决方案都由数据驱动。当这些数据涉及隐私时,保护数据并防止数据主体、所有者或用户的信息泄露给错误方至关重要。如何在保护隐私的同时对敏感数据进行有效计算?
两种隐私保护技术
安全多方计算(MPC)
MPC方法允许多个参与方在仅公开计算结果的前提下,共同执行涉及各方私有数据的计算。更正式地说,MPC协议使n个参与方(每个方拥有私有数据集)能够计算其数据集并集的函数,且计算过程中唯一公开的信息是函数的输出值。
典型应用场景:
- 拍卖:公开中标金额,但不透露落标方的出价信息
- 投票:公开各选项的票数统计,但不暴露个人投票选择
- 机器学习推理:通过安全两方计算,客户端可向持有专有模型的服务器提交查询并获取响应,同时保证服务器无法获知查询内容,客户端无法获取模型信息
技术实现示例
假设四位工程师想比较他们的年度加薪情况而不泄露个人具体金额。每位工程师生成四个随机数,其和等于自己的加薪数额。保留其中一个数字,将另外三个分别发送给其他工程师。随后每位工程师将手中的四个数字(一个私有数字和三个接收的数字)相加,并将总和发送给其他人。最终每位工程师本地计算四个总和的平均值。
该协议通过密码学和分布式计算技术实现,确保输入值的数学保密性。
差分隐私(DP)
差分隐私是一套统计和算法技术,用于发布数据集的聚合函数而不暴露数据贡献者与数据项之间的关联。DP通过"添加噪声"的方式实现隐私保护,其核心是在隐私参数ε和计算结果的实用性之间进行权衡。
技术特性:
- 较小的ε值提供更好的隐私保障,但需要添加更多噪声导致输出准确性降低
- 较大的ε值隐私保护较弱,但噪声较少且准确性更高
随机响应机制案例
在选举预测投票中,受访者通过随机响应机制提交预测结果:首先抛掷公平硬币,若为反面则输出真实预测,若为正面则再次抛硬币随机输出0或1。这种机制为受访者提供"合理否认性",同时允许投票机构通过统计计算获得准确的聚合估计。
技术对比分析
MPC的优势与局限
优势:
- 可计算任意函数的精确结果
- 支持小规模到大规模参与方
- 提供输入值的数学保密保证
局限:
- 协议复杂度高,特别是通信复杂度
- 计算结果与辅助信息结合可能导致隐私泄露
- 需要仔细设计计算函数以避免边缘情况下的信息暴露
DP的优势与局限
优势:
- 抵抗后处理攻击和辅助信息组合攻击
- 具备强大的组合定理支持算法组合
- 特别适合大规模数据集的统计聚合
局限:
- 必须添加噪声,某些场景无法接受
- 对异常值敏感的函数需要大量噪声
- 最初为实值函数设计,非数值计算需要特殊处理
技术融合前景
在某些应用场景中,可以结合MPC和DP的优势:如果g是f的差分隐私近似函数,且能同时实现良好的隐私保护和准确性,则可以使用MPC来计算g。这种组合方法有望在隐私敏感数据计算中发挥重要作用。
两种技术虽然在隐私保证机制、典型用例、输出精度和抗辅助信息攻击能力等方面存在差异,但都为私有数据的计算处理提供了有效的技术解决方案。