Advancing Expert Specialization for Better MoE

📄 arXiv: 2505.22323v5 📥 PDF

作者: Hongcan Guo, Haolang Lu, Guoshun Nan, Bolun Chu, Jialin Zhuang, Yuan Yang, Wenhao Che, Xinye Cao, Sicong Leng, Qimei Cui, Xudong Jiang

分类: cs.CL

发布日期: 2025-05-28 (更新: 2026-01-25)

备注: 33pages, 6figures(Accepted by Neurips 2025 Oral)


💡 一句话要点

提出正交性和方差损失,提升MoE模型专家特化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 专家特化 正交性损失 方差损失 负载均衡 大语言模型 路由策略

📋 核心要点

  1. 现有MoE模型的辅助负载均衡损失导致专家重叠和路由均匀化,阻碍了专家特化。
  2. 提出正交性损失和方差损失,分别鼓励专家处理不同token和更具区分性的路由决策。
  3. 实验表明,该方法显著提升专家特化能力,经典MoE基线性能提升高达23.79%。

📝 摘要(中文)

混合专家模型(MoE)通过仅激活每个输入的部分专家来实现高效的大语言模型(LLM)扩展。然而,我们观察到常用的辅助负载均衡损失通常导致专家重叠和过度均匀的路由,这阻碍了专家特化,并降低了后训练期间的整体性能。为了解决这个问题,我们提出了一个简单而有效的解决方案,引入了两个互补的目标:(1)正交性损失,鼓励专家处理不同类型的token;(2)方差损失,鼓励更具区分性的路由决策。梯度级分析表明,这些目标与现有的辅助损失兼容,并有助于优化训练过程。在各种模型架构和多个基准测试上的实验结果表明,我们的方法显著增强了专家特化。值得注意的是,我们的方法将具有辅助损失的经典MoE基线提高了高达23.79%,同时在下游任务中保持了负载均衡,而无需任何架构修改或额外的组件。我们将发布我们的代码,为社区做出贡献。

🔬 方法详解

问题定义:论文旨在解决MoE模型中专家特化不足的问题。现有的MoE模型通常采用辅助负载均衡损失来平衡各个专家的负载,但这种方法容易导致专家之间的重叠,即多个专家处理相似的输入,从而降低了模型的效率和性能。此外,路由决策过于均匀,无法充分利用不同专家的优势。

核心思路:论文的核心思路是通过引入正交性损失和方差损失来鼓励专家特化。正交性损失旨在使不同的专家处理不同类型的token,从而减少专家之间的重叠。方差损失旨在使路由决策更具区分性,从而使不同的输入能够被路由到最适合处理它们的专家。

技术框架:该方法在现有的MoE模型的基础上,增加了两个损失函数:正交性损失和方差损失。整体训练流程与标准的MoE训练流程类似,只是在计算总损失时,需要将这两个损失函数与现有的辅助负载均衡损失结合起来。模型架构本身没有改变,因此可以很容易地应用于各种MoE模型。

关键创新:该方法最重要的技术创新点在于提出了正交性损失和方差损失,这两种损失函数能够有效地鼓励专家特化,从而提高MoE模型的性能。与现有的方法相比,该方法不需要修改模型架构,只需要在训练过程中增加两个损失函数即可,因此具有很高的实用性。

关键设计:正交性损失通过计算不同专家输出之间的余弦相似度来实现,目标是使不同专家的输出尽可能正交。方差损失通过计算路由概率的方差来实现,目标是使路由概率的分布更加集中,从而使路由决策更具区分性。这两个损失函数的权重需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个基准测试中显著提升了MoE模型的性能。例如,在经典MoE基线上,该方法实现了高达23.79%的性能提升。此外,该方法在提升性能的同时,还能够保持负载均衡,而无需任何架构修改或额外的组件。

🎯 应用场景

该研究成果可广泛应用于各种需要高效扩展的大语言模型场景,例如机器翻译、文本生成、对话系统等。通过提升专家特化能力,可以有效提高模型的性能和效率,降低计算成本,从而推动大语言模型在实际应用中的普及。

📄 摘要(原文)

Mixture-of-Experts (MoE) models enable efficient scaling of large language models (LLMs) by activating only a subset of experts per input. However, we observe that the commonly used auxiliary load balancing loss often leads to expert overlap and overly uniform routing, which hinders expert specialization and degrades overall performance during post-training. To address this, we propose a simple yet effective solution that introduces two complementary objectives: (1) an orthogonality loss to encourage experts to process distinct types of tokens, and (2) a variance loss to encourage more discriminative routing decisions. Gradient-level analysis demonstrates that these objectives are compatible with the existing auxiliary loss and contribute to optimizing the training process. Experimental results over various model architectures and across multiple benchmarks show that our method significantly enhances expert specialization. Notably, our method improves classic MoE baselines with auxiliary loss by up to 23.79%, while also maintaining load balancing in downstream tasks, without any architectural modifications or additional components. We will release our code to contribute to the community.