VeloFHE:GPU加速FHEW和TFHE自举
摘要
FHEW和TFHE等比特级全同态加密方案提供高效的功能自举,支持并发函数计算和噪声消除。尽管在安全计算方面具有优势,但这些方案存在高数据扩展问题,由于大规模密文导致实际应用中的性能挑战。为解决这些问题,我们提出VeloFHE,一种CUDA加速设计,用于提升GPU上FHEW和TFHE方案的效率。
我们开发了一种新颖的混合四步数论变换(NTT)方法来实现快速多项式乘法。通过将大规模NTT分解为高度可并行的子模块,结合循环和负循环卷积,并引入多项内存优化,我们显著降低了计算复杂度和内存需求。
对于盲旋转,除了器件分解方法外,我们还对两种方案应用了最新提出的模数提升技术以缓解内存压力。通过优化计算流程来减少缩放噪声并保持累加器兼容性,我们进一步优化了这一过程。
对于密钥切换,我们解决了输入输出并行度不匹配问题,并将合适计算卸载到CPU,通过异步执行有效隐藏延迟。此外,我们探索了自举中的批处理,开发了一个通用框架,可同时支持两种方案及其器件分解或模数提升方法。
实验结果表明性能显著提升。提出的NTT实现相比近期GPU实现显示超过35%的改进。在RTX 4090 GPU上,与运行在48线程CPU上的OpenFHE相比,我们在128位安全级别下分别实现了FHEW和TFHE门自举371.86倍和390.44倍的加速比。相应吞吐量分别为每秒7,007和11,378次操作。此外,相对于最先进的GPU实现[XLK+25],我们的方法在TFHE门自举、任意函数同态评估和同态取整操作方面分别提供了2.56倍、2.24倍和2.33倍的加速比。我们的VeloFHE超越了当前一些硬件设计,为更实用高效的保护隐私计算提供了有效解决方案。
关键词
全同态加密,自举,FHEW,TFHE,GPU加速
作者
Shiyu Shen(香港城市大学,中国香港)
Hao Yang(香港城市大学,中国香港)
Zhe Liu(浙江实验室,中国杭州)
Ying Liu(中国科学院信息工程研究所网络空间安全防御重点实验室,中国北京;中国科学院大学网络安全学院,中国北京)
Xianhui Lu(中国科学院信息工程研究所网络空间安全防御重点实验室,中国北京;中国科学院大学网络安全学院,中国北京)
Wangchen Dai(中山大学,中国深圳)
Lu Zhou(南京航空航天大学,中国南京)
Yunlei Zhao(复旦大学,中国上海)
Ray C. C. Cheung(香港城市大学,中国香港)
引用信息
DOI: https://doi.org/10.46586/tches.v2025.i3.81-114
发表于:2025年6月5日
卷期:Vol. 2025 No. 3
章节:Articles
许可:Creative Commons Attribution 4.0 International License