Post-Trained MoE Can Skip Half Experts via Self-Distillation
作者: Xingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-18
💡 一句话要点
ZEDA:通过自蒸馏使后训练MoE模型跳过半数专家,提升推理效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 动态MoE 自蒸馏 模型压缩 推理加速 零输出专家 知识迁移
📋 核心要点
- 现有动态MoE方法依赖从头预训练或特定任务适应,缺乏对完全训练MoE模型的实用转换方法。
- ZEDA通过注入零输出专家和两阶段自蒸馏,将静态MoE模型转化为动态MoE模型,降低推理成本。
- 实验表明,ZEDA在保持精度的情况下,显著减少了专家FLOPs,并实现了端到端推理加速。
📝 摘要(中文)
本文提出了一种名为Zero-Expert Self-Distillation Adaptation (ZEDA) 的低成本框架,旨在将后训练的静态MoE模型转化为高效的动态模型。为了稳定这种架构转换,ZEDA在每个MoE层中注入无参数的零输出专家,并通过两阶段自蒸馏来调整增强后的模型,利用原始MoE作为冻结的教师模型,并应用组级别的平衡损失。在Qwen3-30B-A3B和GLM-4.7-Flash模型上,针对涵盖数学、代码和指令遵循的11个基准测试,ZEDA以边际精度损失消除了超过50%的专家FLOPs。它在两个模型上分别比最强的动态MoE基线高出6.1和4.0个点,并实现了约1.20倍的端到端推理加速。
🔬 方法详解
问题定义:论文旨在解决如何将已经充分训练的静态混合专家模型(MoE)转化为动态MoE模型的问题。现有动态MoE方法通常需要从头开始预训练或者针对特定任务进行适应,这使得已有的静态MoE模型难以直接转换为动态MoE模型,从而无法在推理阶段通过跳过不必要的专家来降低计算成本。
核心思路:论文的核心思路是通过自蒸馏的方式,将静态MoE模型的知识迁移到动态MoE模型中。具体来说,通过在MoE层中引入零输出专家,并利用原始静态MoE模型作为教师模型进行自蒸馏,使得动态MoE模型能够学习到何时跳过某些专家,从而减少计算量。
技术框架:ZEDA框架主要包含以下几个步骤:1) 在每个MoE层中注入参数自由的零输出专家。2) 使用原始静态MoE模型作为教师模型,对增强后的模型进行两阶段自蒸馏。第一阶段是专家选择蒸馏,让学生模型学习教师模型的专家选择策略。第二阶段是输出蒸馏,让学生模型学习教师模型的输出。3) 应用组级别的平衡损失,以确保各个专家被均衡地使用。
关键创新:ZEDA的关键创新在于提出了一种低成本的、无需重新训练或特定任务适应的方法,即可将已有的静态MoE模型转化为动态MoE模型。通过引入零输出专家和两阶段自蒸馏,ZEDA能够有效地学习到专家选择策略,从而在推理阶段跳过不必要的专家,降低计算成本。
关键设计:ZEDA的关键设计包括:1) 零输出专家的引入,使得模型能够学习到何时不使用任何专家。2) 两阶段自蒸馏,分别学习专家选择策略和输出。3) 组级别的平衡损失,鼓励各个专家被均衡地使用,避免某些专家被过度使用而其他专家被忽略。损失函数包括专家选择蒸馏损失、输出蒸馏损失和组级别平衡损失。具体实现细节包括使用KL散度作为蒸馏损失,以及使用余弦相似度来衡量专家选择策略的相似性。
🖼️ 关键图片
📊 实验亮点
ZEDA在Qwen3-30B-A3B和GLM-4.7-Flash模型上进行了实验,结果表明,ZEDA能够在保持精度的情况下,消除超过50%的专家FLOPs。在两个模型上,ZEDA分别比最强的动态MoE基线高出6.1和4.0个点,并实现了约1.20倍的端到端推理加速。这些结果表明,ZEDA是一种有效的动态MoE转换方法。
🎯 应用场景
ZEDA具有广泛的应用前景,可以应用于各种基于MoE的大型语言模型,以降低推理成本,提高推理效率。特别是在资源受限的场景下,例如移动设备或边缘计算设备,ZEDA可以帮助部署更大规模的MoE模型,从而提升模型的性能。此外,ZEDA还可以应用于在线学习和持续学习等场景,以适应不断变化的数据分布。
📄 摘要(原文)
Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dynamic MoE methods usually rely on pre-training from scratch or task-specific adaptation, leaving the practical conversion of fully trained MoE underexplored. Enabling such adaptation would directly alleviate the inference costs by allowing easy tokens to bypass unnecessary expert during serving. This paper introduces Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. To stabilize this architectural conversion, ZEDA injects parameter-free zero-output experts into each MoE layer and adapts the augmented model through two-stage self-distillation, utilizing the original MoE as a frozen teacher and applying a group-level balancing loss. On Qwen3-30B-A3B and GLM-4.7-Flash across 11 benchmarks spanning math, code, and instruction following, ZEDA eliminates over 50% of expert FLOPs at marginal accuracy loss. It outperforms the strongest dynamic MoE baseline by 6.1 and 4.0 points on the two models, and delivers ~1.20$\times$ end-to-end inference speedup.