Federation of Experts: Communication Efficient Distributed Inference for Large Language Models

📄 arXiv: 2605.06206v1 📥 PDF

作者: Muhammad Shahir Abdurrahman, Chun Deng, Azalia Mirhoseini, Philip Levis

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出专家联邦(FoE)架构,提升大规模语言模型分布式推理的通信效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大规模语言模型 分布式推理 混合专家模型 通信效率 专家并行

📋 核心要点

  1. 大规模语言模型分布式推理中,专家间通信成为性能瓶颈,特别是all-to-all通信开销巨大。
  2. 专家联邦(FoE)将MoE块重构为多个集群,限制通信在集群内部,减少跨节点通信量。
  3. 实验表明,FoE在单节点和多节点环境下均显著提升推理速度,且保持了生成质量。

📝 摘要(中文)

混合专家模型(MoE)已成为提高大规模语言模型(LLM)计算效率的主要机制。然而,在分布式环境中,专家之间传递token嵌入成为一个显著的瓶颈。本文提出了一种新颖的专家联邦(FoE)架构。FoE将Transformer层的MoE块重构为多个MoE集群。每个集群仅负责一个KV head,并在这些专家之间应用专家并行。在集群之间,通过求和同步注意力后的残差,然后驱动下一个MoE块的路由和分发。在单节点设置中,FoE完全消除了all-to-all通信,因为组内的所有专家都包含在同一个GPU上。在多节点设置中,FoE将all-to-all通信限制在节点内结构中,从而显著降低了通信开销。FoE的实现表明,在LongBench上,FoE显著提高了单节点和多节点设置中的推理吞吐量和延迟,端到端前向传递延迟降低高达5.2倍,TTFT降低3.62倍,TBT降低1.95倍。同时,FoE实现了与相同大小和训练配置的混合专家模型相当的生成质量。

🔬 方法详解

问题定义:论文旨在解决大规模语言模型在分布式推理时,由于混合专家模型(MoE)中专家之间需要频繁通信而导致的效率瓶颈问题。现有的MoE模型在分布式环境下,需要进行大量的all-to-all通信来传递token embeddings,这导致了显著的通信开销,尤其是在多节点环境中,严重影响了推理速度。

核心思路:论文的核心思路是将MoE块重构为多个MoE集群,每个集群负责一部分KV head。通过这种方式,可以将大部分通信限制在集群内部,减少跨节点通信的需求。集群之间通过同步注意力后的残差来传递信息,从而驱动下一个MoE块的路由和分发。

技术框架:FoE架构的核心在于将Transformer层的MoE块划分为多个MoE集群。每个集群内部采用专家并行,负责一部分KV head的计算。集群之间通过求和操作同步注意力后的残差,并将同步后的残差作为下一个MoE块的路由输入。在单节点环境中,所有专家都位于同一GPU上,从而完全消除all-to-all通信。在多节点环境中,all-to-all通信被限制在节点内部,显著降低了跨节点通信开销。

关键创新:FoE的关键创新在于其对MoE块的重构方式,通过引入MoE集群的概念,将通信范围限制在集群内部,从而显著减少了跨节点通信的需求。与传统的MoE模型相比,FoE避免了全局的all-to-all通信,从而提高了分布式推理的效率。

关键设计:FoE的关键设计包括MoE集群的数量、每个集群负责的KV head数量等。这些参数需要根据具体的模型大小和硬件环境进行调整,以达到最佳的性能。此外,集群间同步残差的方式也需要仔细设计,以保证信息的有效传递。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FoE在LongBench基准测试中显著提高了推理吞吐量和降低了延迟。在单节点和多节点设置中,端到端前向传递延迟降低高达5.2倍,TTFT降低3.62倍,TBT降低1.95倍。同时,FoE实现了与相同大小和训练配置的混合专家模型相当的生成质量,证明了其在提高推理效率的同时,能够保持模型的性能。

🎯 应用场景

FoE架构可应用于各种需要大规模语言模型进行分布式推理的场景,例如在线对话系统、机器翻译、文本生成等。通过提高推理效率,FoE可以降低部署成本,提升用户体验,并促进大规模语言模型在实际应用中的普及。未来,FoE还可以与其他优化技术相结合,进一步提升推理性能。

📄 摘要(原文)

Mixture of experts has emerged as the primary mechanism for making Large Language Models (LLMs) computationally efficient. However, in distributed settings, communicating token embeddings between experts is a significant bottleneck. We present the novel Federation of Experts (FoE) architecture. FoE restructures the MoE block of a transformer layer into multiple MoE clusters. Each cluster is responsible for only one of the KV heads and expert parallelism is applied between those experts. Between clusters, a sum synchronizes the post-attention residuals, which then drives routing and dispatch for the next MoE block. In a single-node setting, FoE completely eliminates all-to-all communication as all experts within a group are contained on the same GPU. In multi-node settings, FoE confines all-to-all communication to the intra-node fabric, thus significantly reducing communication overhead. An implementation of FoE finds that on LongBench, FoE significantly improves inference throughput and latency in both single-node and multi-node settings, reducing the end-to-end forward-pass latency by up to 5.2x, TTFT by 3.62x, and TBT by 1.95x. It does so while achieving comparable generation quality to a mixture of experts model of the same size and training configuration.