AEGIS: Scaling Long-Sequence Homomorphic Encrypted Transformer Inference via Hybrid Parallelism on Multi-GPU Systems

作者: Zhaoting Gong, Ran Ran, Fan Yao, Wujie Wen

分类: cs.CR, cs.AI, cs.DC

发布日期: 2026-04-07

💡 一句话要点

AEGIS：通过多GPU混合并行加速长序列同态加密Transformer推理

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 同态加密 Transformer推理 多GPU并行 隐私保护 长序列 CKKS 应用加密协同

📋 核心要点

现有同态加密Transformer推理在长序列场景下，因内存占用过大和通信开销高昂，难以在多GPU上有效扩展。
AEGIS通过联合考虑Transformer数据流和CKKS多项式耦合，优化设备放置和通信调度，减少GPU间通信。
实验表明，AEGIS在长序列输入下显著降低了GPU间通信，实现了更高的扩展效率和端到端加速，并减少了单设备内存占用。

📝 摘要（中文）

全同态加密(FHE)实现了隐私保护的Transformer推理，但长序列加密Transformer会迅速超出单GPU的内存容量，因为编码后的权重已经很大，并且加密后的激活值随着序列长度快速增长。因此，多GPU执行变得不可避免，但扩展仍然具有挑战性，因为通信是由应用级聚合和加密级RNS耦合共同引起的。现有方法要么频繁地在设备之间同步，要么在设备之间复制加密张量，导致过度的通信和延迟。我们提出了AEGIS，一个应用-加密引导的推理系统，用于在多GPU平台上可扩展的长序列加密Transformer推理。AEGIS从Transformer数据流和CKKS多项式耦合共同引起的密文依赖关系中推导出设备放置，将模数一致和token一致的数据并置，以便仅在应用程序依赖关系需要时才引入通信，同时重新排序多项式运算符以将剩余的集合通信与计算重叠。在2048-token输入上，与现有最先进的设计相比，AEGIS在前馈网络中减少了高达57.9%的GPU间通信，在自注意力中减少了高达81.3%的GPU间通信。在四个GPU上，它实现了高达96.62%的扩展效率，3.86倍的端到端加速，以及69.1%的单设备内存减少。这些结果确立了协调的应用-加密并行性作为可扩展同态Transformer推理的实际基础。

🔬 方法详解

问题定义：论文旨在解决长序列同态加密Transformer推理在多GPU系统上的扩展性问题。现有方法的主要痛点在于，加密后的权重和激活值导致内存占用过大，同时应用级聚合和加密级RNS耦合导致频繁的GPU间通信，严重影响推理效率。

核心思路：AEGIS的核心思路是应用-加密联合引导的并行策略。通过分析Transformer数据流和CKKS加密方案的特性，将具有依赖关系的密文数据放置在同一GPU上，从而减少不必要的GPU间通信。同时，通过重新排序多项式运算，将集合通信与计算重叠，进一步优化性能。

技术框架：AEGIS的整体框架包括以下几个主要阶段：1) 依赖关系分析：分析Transformer模型的数据流和CKKS加密方案的依赖关系，确定哪些数据需要放置在同一GPU上。2) 设备放置：根据依赖关系分析的结果，将数据分配到不同的GPU上，尽量减少GPU间通信。3) 通信调度：重新排序多项式运算，将集合通信与计算重叠，隐藏通信开销。4) 并行执行：在多GPU上并行执行Transformer推理。

关键创新：AEGIS的关键创新在于应用-加密联合引导的并行策略。与现有方法相比，AEGIS不是简单地复制数据或频繁同步，而是根据数据依赖关系进行精细化的设备放置和通信调度，从而显著减少了GPU间通信。

关键设计：AEGIS的关键设计包括：1) 基于Transformer数据流和CKKS多项式耦合的依赖关系分析算法。2) 用于优化设备放置的启发式算法，目标是最小化GPU间通信量。3) 用于重新排序多项式运算的调度算法，目标是最大化计算和通信的重叠。

🖼️ 关键图片

📊 实验亮点

AEGIS在2048-token输入下，与现有最先进的设计相比，在前馈网络中减少了高达57.9%的GPU间通信，在自注意力中减少了高达81.3%的GPU间通信。在四个GPU上，实现了高达96.62%的扩展效率，3.86倍的端到端加速，以及69.1%的单设备内存减少。这些数据表明AEGIS在长序列同态加密Transformer推理方面具有显著的性能优势。

🎯 应用场景

AEGIS的研究成果可应用于各种需要隐私保护的Transformer推理场景，例如医疗诊断、金融风控、安全搜索等。通过在多GPU系统上高效地执行同态加密Transformer推理，AEGIS能够保护用户数据的隐私，同时提供高性能的推理服务。未来，该技术有望推动隐私计算在人工智能领域的广泛应用。

📄 摘要（原文）

Fully Homomorphic Encryption (FHE) enables privacy-preserving Transformer inference, but long-sequence encrypted Transformers quickly exceed single-GPU memory capacity because encoded weights are already large and encrypted activations grow rapidly with sequence length. Multi-GPU execution therefore becomes unavoidable, yet scaling remains challenging because communication is jointly induced by application-level aggregation and encryption-level RNS coupling. Existing approaches either synchronize between devices frequently or replicate encrypted tensors across devices, leading to excessive communication and latency.We present AEGIS, an Application-Encryption Guided Inference System for scalable long-sequence encrypted Transformer inference on multi-GPU platforms. AEGIS derives device placement from ciphertext dependencies jointly induced by Transformer dataflow and CKKS polynomial coupling, co-locating modulus-coherent and token-coherent data so that communication is introduced only when application dependencies require it, while reordering polynomial operators to overlap the remaining collectives with computation.On 2048-token inputs, AEGIS reduces inter-GPU communication by up to 57.9% in feed-forward networks and 81.3% in self-attention versus prior state-of-the-art designs. On four GPUs, it achieves up to 96.62% scaling efficiency, 3.86x end-to-end speedup, and 69.1% per-device memory reduction. These results establish coordinated application-encryption parallelism as a practical foundation for scalable homomorphic Transformer inference.

AEGIS: Scaling Long-Sequence Homomorphic Encrypted Transformer Inference via Hybrid Parallelism on Multi-GPU Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理