VeloFHE:GPU加速FHEW和TFHE自举
摘要
类似FHEW和TFHE的比特级全同态加密方案提供高效的功能自举,支持并发函数评估和噪声降低。尽管这些方案在安全计算中具有优势,但它们存在高数据扩展问题,由于大规模密文导致实际应用中的显著性能挑战。为解决这些问题,我们提出VeloFHE,一种CUDA加速设计,以提升FHEW和TFHE方案在GPU上的效率。
我们开发了一种新颖的混合四步数论变换(NTT)方法用于快速多项式乘法。通过将大规模NTT分解为高度可并行的子模块,结合循环和负循环卷积,并引入多种内存导向优化,我们显著降低了计算复杂度和内存需求。
对于盲旋转,除了小工具分解方法外,我们还对两种方案应用了最近提出的模数提升技术以缓解内存压力。我们通过优化计算流程来减少缩放噪声并保持累加器兼容性,进一步优化了该过程。
对于密钥切换,我们解决了输入输出并行性不匹配问题,并将合适的计算卸载到CPU,通过异步执行有效隐藏延迟。此外,我们探索了自举中的批处理,开发了一个通用框架,该框架兼容两种方案,无论是小工具分解还是模数提升方法。
我们的实验结果表明了显著的性能改进。所提出的NTT实现相比最近的GPU实现显示出超过35%的改进。在RTX 4090 GPU上,与在48线程CPU上运行OpenFHE相比,我们分别实现了FHEW和TFHE门自举的371.86倍和390.44倍加速。相应的吞吐量分别为每秒7,007和11,378次操作。此外,相对于最先进的GPU实现[XLK+25],我们的方法在TFHE门自举、任意函数的同态评估和同态地板操作上分别提供了2.56倍、2.24倍和2.33倍的加速。我们的VeloFHE超越了一些当前的硬件设计,为更实用和高效的隐私保护计算提供了有效解决方案。
作者
- Shiyu Shen(香港城市大学,中国香港)
- Hao Yang(香港城市大学,中国香港)
- Zhe Liu(浙江实验室,中国杭州)
- Ying Liu(中国科学院信息工程研究所网络空间安全防御重点实验室,中国北京;中国科学院大学网络空间安全学院,中国北京)
- Xianhui Lu(中国科学院信息工程研究所网络空间安全防御重点实验室,中国北京;中国科学院大学网络空间安全学院,中国北京)
- Wangchen Dai(中山大学,中国深圳)
- Lu Zhou(南京航空航天大学,中国南京)
- Yunlei Zhao(复旦大学,中国上海)
- Ray C. C. Cheung(香港城市大学,中国香港)
关键词
全同态加密,自举,FHEW,TFHE,GPU加速
发布日期
2025年6月5日
许可
版权所有(c)2025 Shiyu Shen, Hao Yang, Zhe Liu, Ying Liu, Xianhui Lu, Wangchen Dai, Lu Zhou, Yunlei Zhao, Ray C. C. Cheung 本作品采用知识共享署名4.0国际许可协议进行许可。