Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs

📄 arXiv: 2509.10377v1 📥 PDF

作者: Yixiao Zhou, Ziyu Zhao, Dongzhou Cheng, zhiliang wu, Jie Gui, Yi Yang, Fei Wu, Yu Cheng, Hehe Fan

分类: cs.CL

发布日期: 2025-09-12

备注: Accepted to EMNLP2025


💡 一句话要点

提出DERN框架以解决SMoE模型的专家冗余问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏混合专家 神经网络修剪 模型压缩 无重训练 性能提升 自然语言处理 智能助手

📋 核心要点

  1. 现有的稀疏混合专家模型在内存使用上存在高开销,且专家间的语义冲突使得直接合并变得困难。
  2. 本文提出DERN框架,通过修剪冗余专家和重组神经元,解决了专家冗余和语义不一致的问题。
  3. 实验结果显示,DERN在多个基准测试中提升了5%以上的性能,同时减少了专家数量和内存使用,便于实际应用。

📝 摘要(中文)

稀疏混合专家(SMoE)架构因其计算效率在大型语言模型中广泛应用。然而,尽管每个token仅激活少数专家,SMoE仍需加载所有专家参数,导致高内存使用和部署挑战。以往研究主要集中在专家级别的修剪和合并,忽视了神经元级别的结构。本文提出了DERN(Dropping Experts, Recombining Neurons),一个任务无关且无需重训练的专家修剪与重构框架。DERN通过三个步骤解决了专家间的语义冲突问题:首先利用路由统计修剪冗余专家;然后将其分解为神经元级别的专家段,并将每个段分配给最兼容的保留专家;最后在每个保留专家内合并段以构建紧凑表示。实验表明,DERN在50%专家稀疏下,提升了常识推理和MMLU基准测试的性能超过5%,并显著减少了专家数量和内存使用,便于实际部署。

🔬 方法详解

问题定义:本文旨在解决稀疏混合专家(SMoE)模型中专家冗余和高内存使用的问题。现有方法主要集中在专家级别的操作,忽视了神经元级别的结构,导致合并时出现语义冲突。

核心思路:DERN框架通过三步走的策略,首先修剪冗余专家,然后在神经元级别进行重组,最后合并段以构建紧凑的表示。这种方法避免了重训练,提升了模型的部署效率。

技术框架:DERN的整体流程包括三个主要模块:1) 利用路由统计修剪冗余专家;2) 将修剪后的专家分解为神经元级别的段;3) 在保留的专家中合并这些段,形成紧凑的表示。

关键创新:DERN的创新在于其任务无关性和无需重训练的特性,解决了专家间的语义冲突问题,显著提高了模型的性能和效率。

关键设计:在实现过程中,DERN采用了路由统计来识别冗余专家,并设计了神经元级别的分解与合并策略,确保了每个段的兼容性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,DERN在Mixtral、Qwen和DeepSeek SMoE模型上,常识推理和MMLU基准测试的性能提升超过5%。在50%专家稀疏的情况下,DERN显著减少了专家数量和内存使用,展示了其在实际应用中的优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等。通过降低内存使用和提高模型部署效率,DERN框架能够使得大型语言模型在资源受限的环境中更易于应用,推动智能应用的普及和发展。

📄 摘要(原文)

Sparse Mixture-of-Experts (SMoE) architectures are widely used in large language models (LLMs) due to their computational efficiency. However, though only a few experts are activated for each token, SMoE still requires loading all expert parameters, leading to high memory usage and challenges in deployment. Previous work has tried to reduce the overhead by pruning and merging experts, but primarily focused on expert-level operations, leaving neuron-level structure underexplored. We propose DERN (Dropping Experts, Recombining Neurons), a task-agnostic and retraining-free framework for expert pruning and reconstruction. We observe that experts are often misaligned and contain semantic conflicts at the neuron level, which poses challenges for direct merging. To solve this, DERN works in three steps: it first prunes redundant experts using router statistics; then it decomposes them into neuron-level expert segments, assigning each segment to its most compatible retained expert; and finally, it merges segments within each retained expert to build a compact representation. Experiments on Mixtral, Qwen, and DeepSeek SMoE models show that DERN improves performance by more than 5% on commonsense reasoning and MMLU benchmarks under 50% expert sparsity, without extra training. It also greatly reduces the number of experts and memory usage, making SMoE LLMs easier to deploy in practice.