Slicing and Dicing: Configuring Optimal Mixtures of Experts
作者: Margaret Li, Sneha Kudugunta, Danielle Rothermel, Luke Zettlemoyer
分类: cs.LG, cs.CL
发布日期: 2026-05-12
💡 一句话要点
系统性研究MoE架构配置,揭示专家数量和粒度对性能的关键影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 MoE 模型配置 专家数量 专家粒度 负载均衡 大型语言模型
📋 核心要点
- 现有MoE模型设计缺乏系统性研究,各配置参数的影响及其相互作用尚不明确。
- 通过大规模实验,系统性地研究了专家数量、粒度、共享专家等多种设计选择对MoE模型性能的影响。
- 实验表明,专家数量和粒度是影响MoE模型性能的关键因素,其他因素影响相对较小,无损路由有持续增益。
📝 摘要(中文)
混合专家模型(MoE)已成为大型语言模型的标准配置,但其核心设计选择——专家数量、粒度、共享专家、负载均衡、token丢弃——大多仅在狭窄的配置范围内被单独研究。这些选择是否可以独立优化,而无需考虑相互作用,仍然是一个悬而未决的问题。我们首次对超过2000次预训练运行进行了系统研究,模型参数高达66亿,全面改变了专家总数、专家维度、单层内的异构专家大小、共享专家大小和负载均衡机制。我们发现,在我们研究的每个激活参数规模下,即使在像128这样的极端激活专家参数比率下,性能也会随着MoE参数总数的增加而持续提高。此外,最佳专家大小几乎不受总参数数量的影响,而仅取决于激活参数数量。第三,我们发现,诸如共享专家、异构专家和负载均衡设置等其他选择相对于专家数量和粒度而言影响较小,尽管无损路由会产生持续的增益。总的来说,我们的结果表明一个更简单的配方:专注于专家数量和粒度,其他选择对最终质量的影响最小。
🔬 方法详解
问题定义:现有混合专家模型(MoE)的设计缺乏系统性的研究,通常只针对单个或少量参数进行优化,忽略了不同设计选择之间的相互作用。例如,专家数量、专家维度、共享专家、负载均衡和token丢弃等参数,它们对模型性能的影响以及如何协同优化仍然不清楚。现有方法难以确定最优的MoE配置,阻碍了MoE模型性能的进一步提升。
核心思路:该论文的核心思路是通过大规模的实验,系统性地评估各种MoE设计选择对模型性能的影响,从而揭示不同参数之间的关系,并找到最优的MoE配置。作者认为,通过全面地探索参数空间,可以发现一些被忽略的规律,并为MoE模型的设计提供更有效的指导。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 定义MoE模型的各种设计选择,包括专家总数、专家维度、异构专家大小、共享专家大小和负载均衡机制等。2) 构建一系列不同配置的MoE模型,模型参数规模高达66亿。3) 对这些模型进行大规模的预训练实验,记录模型的性能指标。4) 分析实验数据,评估不同设计选择对模型性能的影响,并确定最优的MoE配置。
关键创新:该论文的关键创新在于其系统性和全面性。作者首次对超过2000次预训练运行进行了系统研究,覆盖了MoE模型的多个关键设计选择。通过大规模的实验,作者揭示了专家数量和粒度是影响MoE模型性能的关键因素,而其他因素的影响相对较小。这一发现为MoE模型的设计提供了一个更简单的配方,即专注于专家数量和粒度。
关键设计:该研究的关键设计包括:1) 专家数量和粒度的选择:作者探索了不同的专家数量和专家维度,并发现最佳专家大小几乎不受总参数数量的影响,而仅取决于激活参数数量。2) 异构专家大小的设计:作者研究了单层内使用不同大小专家的效果。3) 负载均衡机制的选择:作者比较了不同的负载均衡机制,并发现无损路由可以带来持续的增益。
📊 实验亮点
实验结果表明,在所有研究的激活参数规模下,性能随着MoE参数总数的增加而持续提高,即使在极端激活专家参数比率(如128)下也是如此。最佳专家大小几乎不受总参数数量的影响,而仅取决于激活参数数量。此外,无损路由可以带来持续的增益。这些发现为MoE模型的设计提供了重要的指导。
🎯 应用场景
该研究成果可应用于大型语言模型的训练和优化,帮助研究人员和工程师更有效地配置MoE模型,提升模型性能。通过专注于专家数量和粒度,可以简化MoE模型的设计流程,降低训练成本,并加速新模型的开发。该研究还有助于理解MoE模型的工作机制,为未来的研究方向提供指导。
📄 摘要(原文)
Mixture-of-Experts (MoE) architectures have become standard in large language models, yet many of their core design choices - expert count, granularity, shared experts, load balancing, token dropping - have only been studied one or two at a time over narrow configuration ranges. It remains an open question whether these choices can be optimized independently, without considering interactions. We present the first systematic study of over 2,000 pretraining runs spanning models up to 6.6B total parameters, in which we exhaustively vary total experts, expert dimension, heterogeneous expert sizing within a single layer, shared expert size and load-balancing mechanisms. We find that at every active-parameter scale that we study, performance consistently improves with total MoE parameters even at extreme active expert parameter ratios like 128.Further, the optimal expert size is nearly invariant to total parameter count and depends only on active parameter count. Third, we see that other choices like shared experts, heterogeneous experts and load-balancing settings have small effects relative to expert count and granularity, although dropless routing yields a consistent gain. Overall, our results suggest a simpler recipe: focus on expert count and granularity, other choices have minimal effect on final quality.