MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

📄 arXiv: 2508.05257v1 📥 PDF

作者: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li

分类: cs.LG

发布日期: 2025-08-07


💡 一句话要点

MoBE:一种用于压缩MoE架构LLM的混合基专家方法,显著降低精度损失。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 模型压缩 低秩分解 基矩阵共享 大语言模型 模型优化 MoE压缩

📋 核心要点

  1. 大型MoE模型部署面临高内存需求挑战,现有压缩方法在压缩率提升的同时,精度损失显著。
  2. MoBE方法通过共享基矩阵的线性组合来重参数化专家权重,实现高效的模型压缩。
  3. 实验表明,MoBE在显著压缩模型参数的同时,能够将精度损失控制在较低水平,优于现有方法。

📝 摘要(中文)

混合专家(MoE)架构已成为扩展大型语言模型(LLM)的主流范例。尽管基于MoE的LLM(如DeepSeek-V3-0324和Kimi-K2-Instruct)具有强大的性能和计算效率,但在部署中由于巨大的内存需求而面临严峻挑战。虽然最近的研究已经探索了MoE压缩来解决这个问题,但现有方法即使在适度的压缩率下也经常遭受相当大的精度下降(例如,相对下降7-14%)。本文提出了一种新颖的混合基专家(MoBE)方法,该方法可以在实现模型压缩的同时,最大限度地减少精度下降。具体而言,专家中的每个up/gate矩阵通过秩分解分解为W = AB,其中矩阵A对于每个专家都是唯一的。相对较大的矩阵B被进一步重新参数化为基矩阵{Bi}的线性组合,这些基矩阵在给定MoE层中的所有专家之间共享。通过最小化相对于原始权重矩阵的重建误差来学习该分解。实验表明,与先前的工作相比,MoBE实现了显着更低的精度下降。例如,MoBE可以将Qwen3-235B-A22B-2507、DeepSeek-V3-0324 (671B) 和 Kimi-K2-Instruct (1T) 的参数数量减少24%-30%,而精度下降仅为1%-2%(相对测量时约为2%)。

🔬 方法详解

问题定义:论文旨在解决大型MoE模型在部署时内存需求过高的问题。现有的MoE压缩方法通常会导致显著的精度下降,限制了其在实际应用中的可行性。因此,如何在保证模型性能的前提下,有效地压缩MoE模型,是本文要解决的核心问题。

核心思路:论文的核心思路是将每个专家的权重矩阵分解为两个矩阵的乘积,其中一个矩阵是专家特定的,另一个矩阵是所有专家共享的基矩阵的线性组合。通过共享基矩阵,可以显著减少模型参数量,同时保留专家的个性化特征,从而在压缩的同时保持模型性能。

技术框架:MoBE方法的核心在于对MoE层中每个专家的权重矩阵进行分解和重参数化。具体来说,对于每个专家,其权重矩阵W被分解为W = AB,其中A是专家特定的矩阵,B是基矩阵的线性组合。这些基矩阵在同一MoE层的所有专家之间共享。整个过程通过最小化重构误差来学习,确保分解后的权重矩阵能够尽可能地逼近原始权重矩阵。

关键创新:MoBE的关键创新在于引入了共享基矩阵的概念,并将其应用于MoE模型的压缩。与传统的权重剪枝或量化方法不同,MoBE通过结构化的方式减少参数量,避免了随机性的引入,从而更好地保持了模型的性能。此外,MoBE的分解方式允许每个专家保留其独特的特征,从而避免了过度压缩导致的性能下降。

关键设计:MoBE的关键设计包括基矩阵的数量、线性组合的权重以及重构误差的损失函数。基矩阵的数量决定了模型的压缩率,线性组合的权重决定了每个专家对基矩阵的利用程度,重构误差的损失函数则决定了分解的质量。论文通过实验确定了这些参数的最佳取值,以实现最佳的压缩效果和性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoBE在压缩Qwen3-235B-A22B-2507、DeepSeek-V3-0324 (671B) 和 Kimi-K2-Instruct (1T) 模型时,可以将参数数量减少24%-30%,而精度下降仅为1%-2%(相对测量时约为2%)。相比于现有压缩方法,MoBE在相同压缩率下能够实现更低的精度损失,证明了其有效性。

🎯 应用场景

MoBE方法可应用于各种基于MoE架构的大型语言模型,例如DeepSeek-V3、Kimi-K2等。通过降低模型大小,MoBE能够显著降低部署成本,提高推理速度,使得这些大型模型能够在资源受限的设备上运行,从而拓展其应用范围,例如移动设备、边缘计算等。

📄 摘要(原文)

The Mixture-of-Experts (MoE) architecture has become a predominant paradigm for scaling large language models (LLMs). Despite offering strong performance and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and Kimi-K2-Instruct present serious challenges due to substantial memory requirements in deployment. While recent works have explored MoE compression to address this issue, existing methods often suffer from considerable accuracy drops (e.g., 7-14% relatively) even at modest compression rates. This paper introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model compression while incurring minimal accuracy drops. Specifically, each up/gate matrix in an expert is decomposed via a rank decomposition as W = AB, where matrix A is unique to each expert. The relatively larger matrix B is further re-parameterized as a linear combination of basis matrices {Bi} shared across all experts within a given MoE layer. The factorization is learned by minimizing the reconstruction error relative to the original weight matrices. Experiments demonstrate that MoBE achieves notably lower accuracy drops compared to prior works. For instance, MoBE can reduce the parameter counts of Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by 24%-30% with only 1%-2% accuracy drop (about 2% drops when measured relatively).