Unveiling Super Experts in Mixture-of-Experts Large Language Models

📄 arXiv: 2507.23279v2 📥 PDF

作者: Zunhai Su, Qingyuan Li, Hao Zhang, Weihao Ye, Qibo Xue, YuLei Qian, Yuchen Xie, Ngai Wong, Kehong Yuan

分类: cs.CL

发布日期: 2025-07-31 (更新: 2025-11-12)

🔗 代码/项目: GITHUB


💡 一句话要点

揭示MoE大语言模型中的超级专家,发现其对模型性能的关键作用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 大语言模型 模型剪枝 超级专家 异常值检测

📋 核心要点

  1. 现有MoE模型缺乏对内部专家角色的深入理解,特别是对少量关键专家的作用机制不明确。
  2. 通过识别和分析具有极端激活值的“超级专家”,揭示其在模型推理中的关键作用和独特属性。
  3. 实验表明,剪枝少量超级专家会导致模型性能显著下降,尤其是在数学推理等任务上。

📝 摘要(中文)

本研究首次发现并系统研究了MoE LLM前向推理中起关键作用的一类特殊专家。这些专家在开源MoE LLM中普遍存在,尽管数量极少,但剪枝它们会导致模型性能显著下降(例如,剪枝Qwen3-30B-A3B的6144个专家中的3个,就会导致生成重复且无信息的输出)。我们将这些专家称为超级专家(SEs)。我们的综合分析逐步深入地揭示了SEs的特性:(i)SEs的特征是down_proj输出中罕见但极端的激活异常值,这导致解码器层之间的隐藏状态中产生大量激活。此外,SEs的分布是模型特定的、数据无关的,并且不受训练后过程的影响。(ii)通过剪枝SEs,我们评估了它们在各种任务中的重要性,揭示了它们对模型整体性能的显著影响,尤其是在数学推理方面。(iii)我们进一步研究了压缩SEs为何会产生如此显著的影响。我们表明,在MoE LLM中,SEs是Transformer中系统性异常值机制的主要来源,压缩它们会严重扰乱这一过程,最终导致注意力汇聚的崩溃。这些发现加深了对MoE LLM内部动态的理解,填补了当前知识中的一个重要空白。代码已在https://github.com/ZunhaiSu/Super-Experts-Profilling中提供。

🔬 方法详解

问题定义:论文旨在解决MoE(Mixture-of-Experts)大语言模型中,各个专家在模型推理过程中所扮演的具体角色不明确的问题。现有方法难以解释为何少量专家对模型性能有如此巨大的影响,缺乏对这些关键专家的系统性研究。这种理解的缺失阻碍了MoE模型的进一步优化和改进。

核心思路:论文的核心思路是通过识别和分析MoE模型中具有极端激活值的“超级专家”(Super Experts, SEs),来揭示其在模型推理中的关键作用。作者认为,这些SEs虽然数量很少,但其独特的激活模式对模型的整体性能至关重要。通过剪枝、压缩等手段干预SEs,观察模型性能的变化,从而推断SEs的功能和影响。

技术框架:论文的研究框架主要包括以下几个步骤:1) SEs识别:通过分析MoE模型中各个专家的激活值分布,识别出具有极端激活值的SEs。2) SEs属性分析:研究SEs的分布规律,例如是否与特定数据相关、是否受训练后过程影响等。3) SEs重要性评估:通过剪枝SEs,并在各种任务上评估模型性能的变化,从而确定SEs对模型整体性能的影响。4) SEs作用机制研究:通过分析SEs的激活模式,以及它们对模型内部状态的影响,来揭示SEs在模型推理中的具体作用。

关键创新:论文最重要的技术创新在于首次识别并系统研究了MoE LLM中的“超级专家”(SEs)。与以往研究关注所有专家的平均行为不同,该论文聚焦于少量具有极端激活值的专家,并揭示了它们对模型性能的巨大影响。此外,论文还发现SEs是Transformer中系统性异常值机制的主要来源,压缩它们会导致注意力汇聚的崩溃,这为理解MoE模型的内部动态提供了新的视角。

关键设计:论文的关键设计包括:1) 激活值异常值检测方法:用于识别具有极端激活值的SEs。具体方法未知,但推测可能使用了统计学上的离群点检测方法。2) 剪枝策略:用于评估SEs对模型性能的影响。具体策略未知,但推测可能采用了随机剪枝或基于重要性的剪枝方法。3) 任务选择:选择了多种任务来评估SEs对模型性能的影响,包括数学推理等对模型能力要求较高的任务。4) 模型选择:选择了Qwen3-30B-A3B等开源MoE LLM作为研究对象。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,剪枝少量超级专家(例如,Qwen3-30B-A3B的6144个专家中的3个)会导致模型性能显著下降,尤其是在数学推理等任务上。这表明超级专家在MoE模型中扮演着至关重要的角色。此外,研究还发现超级专家的分布是模型特定的、数据无关的,并且不受训练后过程的影响。

🎯 应用场景

该研究成果可应用于MoE大语言模型的优化和压缩,例如,在模型压缩时,可以优先保留超级专家,以避免性能大幅下降。此外,该研究也有助于更好地理解MoE模型的内部机制,为设计更高效、更强大的MoE模型提供指导。未来,可以进一步研究如何利用超级专家的特性来提升模型的推理效率和泛化能力。

📄 摘要(原文)

In this study, we report, for the first time, the discovery and systematic investigation of a distinct subset of experts that play a pivotal role in the MoE LLMs' forward inference. These experts are prevalent in open-source MoE LLMs, and despite their extremely limited number, pruning them results in a substantial decline in model performance (e.g., prune just three out of 6,144 causes Qwen3-30B-A3B to generate repetitive and uninformative outputs).We refer to these experts as Super Experts (SEs). Our comprehensive analysis provides progressively deeper insights into SEs: (i) SEs are characterized by rare but extreme activation outliers in the output of the down_proj, which give rise to massive activations in the hidden states between decoder layers. Moreover, the distribution of SEs is model-specific, data-agnostic, and remains unaffected by post-training processes. (ii) By pruning SEs, we assess their significance across a variety of tasks, revealing their considerable impact on the model's overall performance, particularly in mathematical reasoning. (iii) We further investigate why compressing SEs exerts such a pronounced impact. We show that, in MoE LLMs, SEs serve as the primary source of the systematic outlier mechanism in Transformers, and that compressing them profoundly disrupts this process, ultimately causing the collapse of attention sinks. These findings advance the understanding of the internal dynamics of MoE LLMs, filling an important gap in the current knowledge. The code is provided in https://github.com/ZunhaiSu/Super-Experts-Profilling.