加密数据机器学习模型技术解析
在NeurIPS 2020隐私保护机器学习研讨会上,研究人员提出了一种隐私保护版本的XGBoost机器学习算法。该算法采用多项密码学工具实现在加密数据上直接进行机器学习推理计算。
技术架构
核心加密工具:
- 顺序保留加密(OPE):保持密文与明文之间的顺序关系
- 伪随机函数(PRF):生成节点测试值的伪随机特征名
- 加法同态加密(AHE):支持密文上的加法运算
工作流程:
- 用户端使用OPE加密明文查询数据
- 服务器在加密数据上执行决策树评估
- 通过同态加密技术汇总各树叶节点输出
- 返回加密结果至用户端解密
性能表现
隐私保护版本算法在500KB模型上的推理耗时约0.4秒,虽比明文版本(1毫秒)有所增加,但仍满足移动端云端机器学习任务的实时性要求。
技术特点
- 支持XGBoost常用的softmax函数同态计算
- 保持梯度提升决策树的原有特性
- 开源原型代码已在某机构实验室发布
未来方向
计划扩展隐私保护版本的学习参数支持,并探索使用安全多方计算技术实现加密回归树中决策节点的安全比较。
相关技术论文《隐私保护的XGBoost推理》已在NeurIPS 2020研讨会发表