GPU Acceleration of Sparse Fully Homomorphic Encrypted DNNs

作者: Lara D'Agata, Carlos Agulló-Domingo, Óscar Vera-López, Kaustubh Shivdikar, Ardhi W. B. Yudha, Ferhat Yaman, David Kaeli, José L. Abellán, Ian Colbert, José Cano

分类: cs.CR, cs.DC, cs.DS, cs.LG, cs.PF

发布日期: 2026-04-13

备注: Accepted to the 6th Workshop on Machine Learning and Systems (EuroMLSys) co-located with EuroSys '26

💡 一句话要点

提出基于GPU加速的稀疏全同态加密DNN矩阵乘法优化方法

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 全同态加密 GPU加速 稀疏矩阵乘法 深度神经网络 FIDESlib

📋 核心要点

全同态加密DNN计算开销巨大，矩阵乘法是瓶颈，现有方法难以兼顾效率与安全性。
利用FIDESlib库，针对GPU架构优化稀疏矩阵乘法，降低计算复杂度和运行时间。
实验表明，该方法在GPU上实现了显著加速，性能优于CPU版本，并降低了时间复杂度。

📝 摘要（中文）

全同态加密(FHE)作为一种密码学原语和系统挑战，近年来受到了广泛关注。随着加速计算的最新进展，FHE在机器学习和信息安全等领域展现出巨大的潜力。本文从硬件角度出发，针对深度神经网络中计算量最大的矩阵乘法(matmul)运算，并将其适配于AMD GPU上的执行。我们提出了一种新的优化方法，通过使用专为GPU设计的开源FHE库FIDESlib，提高了密文矩阵乘法的运行时间和复杂度。通过利用操作数的稀疏性，我们的稀疏矩阵乘法实现比CPU版本快达3.0倍，并将时间复杂度从立方降低到半线性，优于现有的FHE矩阵乘法实现。

🔬 方法详解

问题定义：论文旨在解决全同态加密（FHE）深度神经网络（DNN）中矩阵乘法计算开销巨大的问题。现有的FHE矩阵乘法实现计算复杂度高，难以满足实际应用的需求，尤其是在处理大型DNN时，效率瓶颈更加明显。

核心思路：论文的核心思路是利用GPU的并行计算能力，并结合稀疏矩阵乘法的优化技术，加速FHE密文矩阵乘法的计算。通过专门为GPU设计的FIDESlib库，充分利用GPU的硬件特性，实现高效的FHE计算。

技术框架：该方法主要包含以下几个阶段：首先，将DNN中的矩阵乘法操作转换为FHE密文域上的计算。然后，利用FIDESlib库提供的GPU加速功能，对密文矩阵进行稀疏矩阵乘法运算。最后，将计算结果返回。整体框架围绕FIDESlib库展开，充分利用其提供的底层优化。

关键创新：最重要的技术创新点在于针对GPU架构的稀疏矩阵乘法优化。与传统的FHE矩阵乘法实现相比，该方法充分利用了操作数的稀疏性，从而降低了计算复杂度，并显著提高了计算效率。此外，使用FIDESlib库也简化了GPU加速FHE计算的开发流程。

关键设计：论文的关键设计包括：选择FIDESlib作为FHE计算库，因为它专门为GPU设计，提供了高效的底层实现；针对稀疏矩阵乘法，采用了合适的存储格式和计算方法，以减少不必要的计算；针对GPU架构，对计算过程进行了优化，例如利用CUDA或ROCm等并行计算框架。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在AMD GPU上实现了显著的加速效果，稀疏矩阵乘法实现比CPU版本快达3.0倍，并将时间复杂度从立方降低到半线性。这表明该方法在FHE密文矩阵乘法计算方面具有显著的优势，优于现有的FHE矩阵乘法实现。

🎯 应用场景

该研究成果可应用于保护隐私的机器学习场景，例如在医疗、金融等敏感数据领域，可以在不泄露原始数据的前提下进行模型训练和推理。此外，该技术还可用于安全多方计算、联邦学习等领域，具有重要的实际应用价值和广阔的发展前景。

📄 摘要（原文）

Fully homomorphic encryption (FHE) has recently attracted significant attention as both a cryptographic primitive and a systems challenge. Given the latest advances in accelerated computing, FHE presents a promising opportunity for progress, with applications ranging from machine learning to information security. We target the most computationally intensive operation in deep neural networks from a hardware perspective, matrix multiplication (matmul), and adapt it for execution on AMD GPUs. We propose a new optimized method that improves the runtime and complexity of ciphertext matmul by using FIDESlib, a recent open-source FHE library designed specifically for GPUs. By exploiting sparsity in both operands, our sparse matmul implementation outperforms its CPU counterpart by up to $3.0\times$ and reduces the time complexity from cubic to semi-linear, demonstrating an improvement over existing FHE matmul implementations.

GPU Acceleration of Sparse Fully Homomorphic Encrypted DNNs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理