Federation of Experts: Communication Efficient Distributed Inference for Large Language Models

作者: Muhammad Shahir Abdurrahman, Chun Deng, Azalia Mirhoseini, Philip Levis

分类: cs.LG

发布日期: 2026-05-07

💡 一句话要点

提出专家联邦（FoE）架构，提升大规模语言模型分布式推理的通信效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大规模语言模型 分布式推理 混合专家模型 通信效率 专家并行

📋 核心要点

大规模语言模型分布式推理中，专家间通信成为性能瓶颈，特别是all-to-all通信开销巨大。
专家联邦（FoE）将MoE块重构为多个集群，限制通信在集群内部，减少跨节点通信量。
实验表明，FoE在单节点和多节点环境下均显著提升推理速度，且保持了生成质量。

📝 摘要（中文）

混合专家模型（MoE）已成为提高大规模语言模型（LLM）计算效率的主要机制。然而，在分布式环境中，专家之间传递token嵌入成为一个显著的瓶颈。本文提出了一种新颖的专家联邦（FoE）架构。FoE将Transformer层的MoE块重构为多个MoE集群。每个集群仅负责一个KV head，并在这些专家之间应用专家并行。在集群之间，通过求和同步注意力后的残差，然后驱动下一个MoE块的路由和分发。在单节点设置中，FoE完全消除了all-to-all通信，因为组内的所有专家都包含在同一个GPU上。在多节点设置中，FoE将all-to-all通信限制在节点内结构中，从而显著降低了通信开销。FoE的实现表明，在LongBench上，FoE显著提高了单节点和多节点设置中的推理吞吐量和延迟，端到端前向传递延迟降低高达5.2倍，TTFT降低3.62倍，TBT降低1.95倍。同时，FoE实现了与相同大小和训练配置的混合专家模型相当的生成质量。

🔬 方法详解

问题定义：论文旨在解决大规模语言模型在分布式推理时，由于混合专家模型（MoE）中专家之间需要频繁通信而导致的效率瓶颈问题。现有的MoE模型在分布式环境下，需要进行大量的all-to-all通信来传递token embeddings，这导致了显著的通信开销，尤其是在多节点环境中，严重影响了推理速度。

核心思路：论文的核心思路是将MoE块重构为多个MoE集群，每个集群负责一部分KV head。通过这种方式，可以将大部分通信限制在集群内部，减少跨节点通信的需求。集群之间通过同步注意力后的残差来传递信息，从而驱动下一个MoE块的路由和分发。

技术框架：FoE架构的核心在于将Transformer层的MoE块划分为多个MoE集群。每个集群内部采用专家并行，负责一部分KV head的计算。集群之间通过求和操作同步注意力后的残差，并将同步后的残差作为下一个MoE块的路由输入。在单节点环境中，所有专家都位于同一GPU上，从而完全消除all-to-all通信。在多节点环境中，all-to-all通信被限制在节点内部，显著降低了跨节点通信开销。

关键创新：FoE的关键创新在于其对MoE块的重构方式，通过引入MoE集群的概念，将通信范围限制在集群内部，从而显著减少了跨节点通信的需求。与传统的MoE模型相比，FoE避免了全局的all-to-all通信，从而提高了分布式推理的效率。

关键设计：FoE的关键设计包括MoE集群的数量、每个集群负责的KV head数量等。这些参数需要根据具体的模型大小和硬件环境进行调整，以达到最佳的性能。此外，集群间同步残差的方式也需要仔细设计，以保证信息的有效传递。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FoE在LongBench基准测试中显著提高了推理吞吐量和降低了延迟。在单节点和多节点设置中，端到端前向传递延迟降低高达5.2倍，TTFT降低3.62倍，TBT降低1.95倍。同时，FoE实现了与相同大小和训练配置的混合专家模型相当的生成质量，证明了其在提高推理效率的同时，能够保持模型的性能。

🎯 应用场景

FoE架构可应用于各种需要大规模语言模型进行分布式推理的场景，例如在线对话系统、机器翻译、文本生成等。通过提高推理效率，FoE可以降低部署成本，提升用户体验，并促进大规模语言模型在实际应用中的普及。未来，FoE还可以与其他优化技术相结合，进一步提升推理性能。

📄 摘要（原文）

Mixture of experts has emerged as the primary mechanism for making Large Language Models (LLMs) computationally efficient. However, in distributed settings, communicating token embeddings between experts is a significant bottleneck. We present the novel Federation of Experts (FoE) architecture. FoE restructures the MoE block of a transformer layer into multiple MoE clusters. Each cluster is responsible for only one of the KV heads and expert parallelism is applied between those experts. Between clusters, a sum synchronizes the post-attention residuals, which then drives routing and dispatch for the next MoE block. In a single-node setting, FoE completely eliminates all-to-all communication as all experts within a group are contained on the same GPU. In multi-node settings, FoE confines all-to-all communication to the intra-node fabric, thus significantly reducing communication overhead. An implementation of FoE finds that on LongBench, FoE significantly improves inference throughput and latency in both single-node and multi-node settings, reducing the end-to-end forward-pass latency by up to 5.2x, TTFT by 3.62x, and TBT by 1.95x. It does so while achieving comparable generation quality to a mixture of experts model of the same size and training configuration.

Federation of Experts: Communication Efficient Distributed Inference for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理