AEGIS: Scaling Long-Sequence Homomorphic Encrypted Transformer Inference via Hybrid Parallelism on Multi-GPU Systems

📄 arXiv: 2604.03425 📥 PDF

作者: Zhaoting Gong, Ran Ran, Fan Yao, Wujie Wen

分类: cs.CR, cs.AI, cs.DC

发布日期: 2026-04-07


💡 一句话要点

AEGIS:通过多GPU混合并行加速长序列同态加密Transformer推理

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 同态加密 Transformer推理 多GPU并行 隐私保护 长序列 CKKS 应用加密协同

📋 核心要点

  1. 现有同态加密Transformer推理在长序列场景下,因内存占用过大和通信开销高昂,难以在多GPU上有效扩展。
  2. AEGIS通过联合考虑Transformer数据流和CKKS多项式耦合,优化设备放置和通信调度,减少GPU间通信。
  3. 实验表明,AEGIS在长序列输入下显著降低了GPU间通信,实现了更高的扩展效率和端到端加速,并减少了单设备内存占用。

📝 摘要(中文)

全同态加密(FHE)实现了隐私保护的Transformer推理,但长序列加密Transformer会迅速超出单GPU的内存容量,因为编码后的权重已经很大,并且加密后的激活值随着序列长度快速增长。因此,多GPU执行变得不可避免,但扩展仍然具有挑战性,因为通信是由应用级聚合和加密级RNS耦合共同引起的。现有方法要么频繁地在设备之间同步,要么在设备之间复制加密张量,导致过度的通信和延迟。我们提出了AEGIS,一个应用-加密引导的推理系统,用于在多GPU平台上可扩展的长序列加密Transformer推理。AEGIS从Transformer数据流和CKKS多项式耦合共同引起的密文依赖关系中推导出设备放置,将模数一致和token一致的数据并置,以便仅在应用程序依赖关系需要时才引入通信,同时重新排序多项式运算符以将剩余的集合通信与计算重叠。在2048-token输入上,与现有最先进的设计相比,AEGIS在前馈网络中减少了高达57.9%的GPU间通信,在自注意力中减少了高达81.3%的GPU间通信。在四个GPU上,它实现了高达96.62%的扩展效率,3.86倍的端到端加速,以及69.1%的单设备内存减少。这些结果确立了协调的应用-加密并行性作为可扩展同态Transformer推理的实际基础。

🔬 方法详解

问题定义:论文旨在解决长序列同态加密Transformer推理在多GPU系统上的扩展性问题。现有方法的主要痛点在于,加密后的权重和激活值导致内存占用过大,同时应用级聚合和加密级RNS耦合导致频繁的GPU间通信,严重影响推理效率。

核心思路:AEGIS的核心思路是应用-加密联合引导的并行策略。通过分析Transformer数据流和CKKS加密方案的特性,将具有依赖关系的密文数据放置在同一GPU上,从而减少不必要的GPU间通信。同时,通过重新排序多项式运算,将集合通信与计算重叠,进一步优化性能。

技术框架:AEGIS的整体框架包括以下几个主要阶段:1) 依赖关系分析:分析Transformer模型的数据流和CKKS加密方案的依赖关系,确定哪些数据需要放置在同一GPU上。2) 设备放置:根据依赖关系分析的结果,将数据分配到不同的GPU上,尽量减少GPU间通信。3) 通信调度:重新排序多项式运算,将集合通信与计算重叠,隐藏通信开销。4) 并行执行:在多GPU上并行执行Transformer推理。

关键创新:AEGIS的关键创新在于应用-加密联合引导的并行策略。与现有方法相比,AEGIS不是简单地复制数据或频繁同步,而是根据数据依赖关系进行精细化的设备放置和通信调度,从而显著减少了GPU间通信。

关键设计:AEGIS的关键设计包括:1) 基于Transformer数据流和CKKS多项式耦合的依赖关系分析算法。2) 用于优化设备放置的启发式算法,目标是最小化GPU间通信量。3) 用于重新排序多项式运算的调度算法,目标是最大化计算和通信的重叠。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AEGIS在2048-token输入下,与现有最先进的设计相比,在前馈网络中减少了高达57.9%的GPU间通信,在自注意力中减少了高达81.3%的GPU间通信。在四个GPU上,实现了高达96.62%的扩展效率,3.86倍的端到端加速,以及69.1%的单设备内存减少。这些数据表明AEGIS在长序列同态加密Transformer推理方面具有显著的性能优势。

🎯 应用场景

AEGIS的研究成果可应用于各种需要隐私保护的Transformer推理场景,例如医疗诊断、金融风控、安全搜索等。通过在多GPU系统上高效地执行同态加密Transformer推理,AEGIS能够保护用户数据的隐私,同时提供高性能的推理服务。未来,该技术有望推动隐私计算在人工智能领域的广泛应用。

📄 摘要(原文)

Fully Homomorphic Encryption (FHE) enables privacy-preserving Transformer inference, but long-sequence encrypted Transformers quickly exceed single-GPU memory capacity because encoded weights are already large and encrypted activations grow rapidly with sequence length. Multi-GPU execution therefore becomes unavoidable, yet scaling remains challenging because communication is jointly induced by application-level aggregation and encryption-level RNS coupling. Existing approaches either synchronize between devices frequently or replicate encrypted tensors across devices, leading to excessive communication and latency.We present AEGIS, an Application-Encryption Guided Inference System for scalable long-sequence encrypted Transformer inference on multi-GPU platforms. AEGIS derives device placement from ciphertext dependencies jointly induced by Transformer dataflow and CKKS polynomial coupling, co-locating modulus-coherent and token-coherent data so that communication is introduced only when application dependencies require it, while reordering polynomial operators to overlap the remaining collectives with computation.On 2048-token inputs, AEGIS reduces inter-GPU communication by up to 57.9% in feed-forward networks and 81.3% in self-attention versus prior state-of-the-art designs. On four GPUs, it achieves up to 96.62% scaling efficiency, 3.86x end-to-end speedup, and 69.1% per-device memory reduction. These results establish coordinated application-encryption parallelism as a practical foundation for scalable homomorphic Transformer inference.