GPU Acceleration of Sparse Fully Homomorphic Encrypted DNNs

📄 arXiv: 2604.11659v1 📥 PDF

作者: Lara D'Agata, Carlos Agulló-Domingo, Óscar Vera-López, Kaustubh Shivdikar, Ardhi W. B. Yudha, Ferhat Yaman, David Kaeli, José L. Abellán, Ian Colbert, José Cano

分类: cs.CR, cs.DC, cs.DS, cs.LG, cs.PF

发布日期: 2026-04-13

备注: Accepted to the 6th Workshop on Machine Learning and Systems (EuroMLSys) co-located with EuroSys '26


💡 一句话要点

提出基于GPU加速的稀疏全同态加密DNN矩阵乘法优化方法

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 全同态加密 GPU加速 稀疏矩阵乘法 深度神经网络 FIDESlib

📋 核心要点

  1. 全同态加密DNN计算开销巨大,矩阵乘法是瓶颈,现有方法难以兼顾效率与安全性。
  2. 利用FIDESlib库,针对GPU架构优化稀疏矩阵乘法,降低计算复杂度和运行时间。
  3. 实验表明,该方法在GPU上实现了显著加速,性能优于CPU版本,并降低了时间复杂度。

📝 摘要(中文)

全同态加密(FHE)作为一种密码学原语和系统挑战,近年来受到了广泛关注。随着加速计算的最新进展,FHE在机器学习和信息安全等领域展现出巨大的潜力。本文从硬件角度出发,针对深度神经网络中计算量最大的矩阵乘法(matmul)运算,并将其适配于AMD GPU上的执行。我们提出了一种新的优化方法,通过使用专为GPU设计的开源FHE库FIDESlib,提高了密文矩阵乘法的运行时间和复杂度。通过利用操作数的稀疏性,我们的稀疏矩阵乘法实现比CPU版本快达3.0倍,并将时间复杂度从立方降低到半线性,优于现有的FHE矩阵乘法实现。

🔬 方法详解

问题定义:论文旨在解决全同态加密(FHE)深度神经网络(DNN)中矩阵乘法计算开销巨大的问题。现有的FHE矩阵乘法实现计算复杂度高,难以满足实际应用的需求,尤其是在处理大型DNN时,效率瓶颈更加明显。

核心思路:论文的核心思路是利用GPU的并行计算能力,并结合稀疏矩阵乘法的优化技术,加速FHE密文矩阵乘法的计算。通过专门为GPU设计的FIDESlib库,充分利用GPU的硬件特性,实现高效的FHE计算。

技术框架:该方法主要包含以下几个阶段:首先,将DNN中的矩阵乘法操作转换为FHE密文域上的计算。然后,利用FIDESlib库提供的GPU加速功能,对密文矩阵进行稀疏矩阵乘法运算。最后,将计算结果返回。整体框架围绕FIDESlib库展开,充分利用其提供的底层优化。

关键创新:最重要的技术创新点在于针对GPU架构的稀疏矩阵乘法优化。与传统的FHE矩阵乘法实现相比,该方法充分利用了操作数的稀疏性,从而降低了计算复杂度,并显著提高了计算效率。此外,使用FIDESlib库也简化了GPU加速FHE计算的开发流程。

关键设计:论文的关键设计包括:选择FIDESlib作为FHE计算库,因为它专门为GPU设计,提供了高效的底层实现;针对稀疏矩阵乘法,采用了合适的存储格式和计算方法,以减少不必要的计算;针对GPU架构,对计算过程进行了优化,例如利用CUDA或ROCm等并行计算框架。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在AMD GPU上实现了显著的加速效果,稀疏矩阵乘法实现比CPU版本快达3.0倍,并将时间复杂度从立方降低到半线性。这表明该方法在FHE密文矩阵乘法计算方面具有显著的优势,优于现有的FHE矩阵乘法实现。

🎯 应用场景

该研究成果可应用于保护隐私的机器学习场景,例如在医疗、金融等敏感数据领域,可以在不泄露原始数据的前提下进行模型训练和推理。此外,该技术还可用于安全多方计算、联邦学习等领域,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Fully homomorphic encryption (FHE) has recently attracted significant attention as both a cryptographic primitive and a systems challenge. Given the latest advances in accelerated computing, FHE presents a promising opportunity for progress, with applications ranging from machine learning to information security. We target the most computationally intensive operation in deep neural networks from a hardware perspective, matrix multiplication (matmul), and adapt it for execution on AMD GPUs. We propose a new optimized method that improves the runtime and complexity of ciphertext matmul by using FIDESlib, a recent open-source FHE library designed specifically for GPUs. By exploiting sparsity in both operands, our sparse matmul implementation outperforms its CPU counterpart by up to $3.0\times$ and reduces the time complexity from cubic to semi-linear, demonstrating an improvement over existing FHE matmul implementations.