Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

作者: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang

分类: cs.CL

发布日期: 2025-05-27 (更新: 2025-05-28)

💡 一句话要点

提出分组专家混合（MoGE）架构，提升稀疏模型在昇腾NPU上的训练和推理效率。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 专家混合 MoE 负载均衡 稀疏模型 昇腾NPU

📋 核心要点

现有MoE模型存在专家负载不均衡问题，导致并行计算时资源利用率低，影响训练和推理效率。
提出MoGE架构，通过分组专家并约束组内激活数量，实现专家负载均衡，提升并行计算效率。
Pangu Pro MoE在昇腾NPU上实现了高效训练和推理，推理性能优于同等规模的稠密模型。

📝 摘要（中文）

大型语言模型中的专家混合（MoE）通过仅激活每个输入token的一小部分参数，实现了以较小的执行成本获得更大的模型参数量和学习能力。然而，常见的现象是某些专家被激活的频率远高于其他专家，导致在不同设备上并行运行专家时系统效率低下。因此，我们引入了分组专家混合（MoGE），它在选择过程中对专家进行分组，并且在本质上比MoE更好地平衡专家工作负载。MoGE约束token在每个预定义的专家组内激活相同数量的专家。当模型执行分布在多个设备上时，这种架构设计确保了跨设备的均衡计算负载，从而显著提高了吞吐量，尤其是在推理阶段。此外，我们在昇腾NPU上构建了Pangu Pro MoE，这是一个基于MoGE的稀疏模型，总参数量为720亿，其中每个token激活160亿个参数。Pangu Pro MoE的配置针对昇腾300I Duo和800I A2进行了优化，通过广泛的系统仿真研究。实验表明，MoGE确实可以更好地平衡专家负载，并提高模型在昇腾NPU上训练和推理的效率。Pangu Pro MoE的推理性能达到每卡1148 tokens/s，并且可以通过推测加速进一步提高到每卡1528 tokens/s，优于可比的32B和72B稠密模型。此外，我们在昇腾300I Duo上实现了出色的模型推理性价比。研究表明，昇腾NPU能够通过大规模并行化训练Pangu Pro MoE，使其成为参数量小于100B级别中的领先模型，优于著名的开源模型，如GLM-Z1-32B和Qwen3-32B。

🔬 方法详解

问题定义：论文旨在解决MoE模型中专家负载不均衡的问题。在MoE模型中，不同的专家被激活的频率差异很大，导致某些专家过载而其他专家空闲，这在分布式系统中会造成计算资源的浪费和整体效率的下降。现有方法难以有效平衡专家负载，尤其是在大规模模型和分布式训练/推理场景下。

核心思路：论文的核心思路是引入分组专家的概念，即MoGE。MoGE将专家划分为多个组，并强制每个token在每个组内激活相同数量的专家。这样可以保证每个组内的专家负载相对均衡，从而提高整体的计算效率。这种设计旨在从架构层面解决负载不均衡问题，而不是依赖于复杂的负载均衡算法。

技术框架：Pangu Pro MoE的整体架构基于MoGE，其主要模块包括：输入层、MoGE层、输出层。MoGE层是核心，它包含多个专家组，每个组内有多个专家。对于每个输入token，路由模块会选择每个组内要激活的专家。选择过程受到约束，保证每个组内激活的专家数量相同。模型的训练和推理过程都受益于MoGE带来的负载均衡。

关键创新：MoGE的关键创新在于其分组专家的架构设计，以及对每个组内激活专家数量的约束。这与传统的MoE模型不同，后者允许token自由选择任何专家，从而导致负载不均衡。MoGE通过架构上的约束，实现了更有效的负载均衡，提高了并行计算的效率。

关键设计：Pangu Pro MoE的关键设计包括：专家组的数量、每个组内专家的数量、以及每个token在每个组内激活的专家数量。这些参数需要根据具体的硬件平台（如昇腾NPU）和模型规模进行优化。论文通过系统仿真研究，找到了针对昇腾300I Duo和800I A2的最佳配置。此外，损失函数的设计也需要考虑负载均衡的因素，例如可以引入辅助损失来鼓励专家负载的均衡。

🖼️ 关键图片

📊 实验亮点

Pangu Pro MoE在昇腾NPU上的推理性能达到每卡1148 tokens/s，通过推测加速可进一步提升至每卡1528 tokens/s，优于同等规模的稠密模型。此外，该模型在参数量小于100B级别中表现领先，超越了GLM-Z1-32B和Qwen3-32B等知名开源模型，展现了MoGE架构在提升模型效率方面的优势。

🎯 应用场景

MoGE架构和Pangu Pro MoE模型可应用于各种需要大规模语言模型的场景，如智能客服、文本生成、机器翻译等。其高效的推理性能和性价比使其特别适合在资源受限的边缘设备或云平台上部署。未来，该技术有望推动大模型在更多实际应用中的落地。

📄 摘要（原文）

The surgence of Mixture of Experts (MoE) in Large Language Models promises a small price of execution cost for a much larger model parameter count and learning capacity, because only a small fraction of parameters are activated for each input token. However, it is commonly observed that some experts are activated far more often than others, leading to system inefficiency when running the experts on different devices in parallel. Therefore, we introduce Mixture of Grouped Experts (MoGE), which groups the experts during selection and balances the expert workload better than MoE in nature. It constrains tokens to activate an equal number of experts within each predefined expert group. When a model execution is distributed on multiple devices, this architectural design ensures a balanced computational load across devices, significantly enhancing throughput, particularly for the inference phase. Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE with 72 billion total parameters, 16 billion of which are activated for each token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and 800I A2 through extensive system simulation studies. Our experiments indicate that MoGE indeed leads to better expert load balancing and more efficient execution for both model training and inference on Ascend NPUs. The inference performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further improved to 1528 tokens/s per card by speculative acceleration, outperforming comparable 32B and 72B Dense models. Furthermore, we achieve an excellent cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies show that Ascend NPUs are capable of training Pangu Pro MoE with massive parallelization to make it a leading model within the sub-100B total parameter class, outperforming prominent open-source models like GLM-Z1-32B and Qwen3-32B.

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理