Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models

作者: Hongcheng Guo, Juntao Yao, Boyang Wang, Junjia Du, Shaosheng Cao, Donglin Di, Shun Zhang, Zhoujun Li

分类: cs.CL

发布日期: 2025-04-10

💡 一句话要点

提出C-Prune，通过聚类驱动的专家剪枝压缩MoE大语言模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 模型剪枝 大语言模型 模型压缩 聚类算法

📋 核心要点

MoE模型参数量巨大，部署困难，现有剪枝方法忽略了层内专家同质性和层间相似性。
C-Prune通过层内专家聚类和跨层聚类剪枝，自适应地压缩MoE模型，减少冗余。
实验表明，C-Prune在减少模型大小的同时，性能优于现有MoE剪枝方法。

📝 摘要（中文）

混合专家模型(MoE)架构已成为扩展具有任务特定专家稀疏激活的大型语言模型(LLM)的一种有前景的范例。尽管MoE模型在推理过程中具有计算效率，但其庞大的总体参数规模(例如，GPT-4)为实际部署带来了严峻挑战。目前的剪枝方法通常无法解决MoE系统的两个固有特性：1)层内专家同质性，即同一MoE层内的专家表现出功能冗余；2)层间相似性模式，即更深层往往包含逐渐同质化的专家。为了解决这些问题，我们提出了一种新的两阶段框架——聚类驱动的专家剪枝(C-Prune)，用于自适应地对MoE LLM进行任务特定压缩。C-Prune通过分层专家聚类来工作，该聚类使用参数相似性度量对每个MoE层中功能相似的专家进行分组，然后进行全局聚类剪枝，通过统一的重要性评分机制消除跨层冗余聚类，该机制考虑了跨层同质性。我们通过对多个MoE模型和基准进行的大量实验验证了C-Prune。结果表明，C-Prune有效地减少了模型大小，同时优于现有的MoE剪枝方法。

🔬 方法详解

问题定义：MoE模型虽然推理高效，但参数量巨大，部署成本高昂。现有剪枝方法未能充分利用MoE模型中专家之间的冗余性，特别是层内专家同质性和层间相似性，导致剪枝效果不佳。

核心思路：C-Prune的核心思路是识别并消除MoE模型中功能冗余的专家。通过聚类将功能相似的专家分组，然后根据重要性评分剪枝冗余的专家簇，从而在保持性能的同时减少模型大小。这种方法充分利用了MoE模型中专家之间的冗余性，实现了更有效的压缩。

技术框架：C-Prune是一个两阶段框架：1) 层内专家聚类：对每个MoE层内的专家进行聚类，将功能相似的专家分组。使用参数相似性度量（具体度量方式未知）来衡量专家之间的相似度。2) 全局聚类剪枝：跨所有层消除冗余的聚类。使用统一的重要性评分机制来评估每个聚类的重要性，该机制考虑了跨层同质性。根据重要性评分剪枝不重要的聚类。

关键创新：C-Prune的关键创新在于其聚类驱动的剪枝方法，它显式地考虑了MoE模型中层内专家同质性和层间相似性。与现有方法相比，C-Prune能够更准确地识别和消除冗余专家，从而实现更高的压缩率和更好的性能。

关键设计：具体的参数相似性度量方式未知。重要性评分机制的具体计算方法未知，但它需要考虑跨层同质性。聚类的具体算法未知，但需要能够处理高维参数空间。剪枝比例的确定方法未知，可能需要根据具体任务和模型进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，C-Prune在多个MoE模型和基准测试中都优于现有的MoE剪枝方法。具体性能提升数据未知，但摘要中强调C-Prune有效地减少了模型大小，同时保持或提高了模型性能。这表明C-Prune是一种有效的MoE模型压缩方法。

🎯 应用场景

C-Prune可应用于各种MoE大语言模型的压缩和部署，尤其适用于资源受限的场景，如移动设备、边缘计算等。通过降低模型大小，可以减少存储空间需求、降低计算成本、提高推理速度，从而加速MoE模型在实际应用中的落地。

📄 摘要（原文）

Mixture-of-Experts (MoE) architectures have emerged as a promising paradigm for scaling large language models (LLMs) with sparse activation of task-specific experts. Despite their computational efficiency during inference, the massive overall parameter footprint of MoE models (e.g., GPT-4) introduces critical challenges for practical deployment. Current pruning approaches often fail to address two inherent characteristics of MoE systems: 1).intra-layer expert homogeneity where experts within the same MoE layer exhibit functional redundancy, and 2). inter-layer similarity patterns where deeper layers tend to contain progressively more homogeneous experts. To tackle these issues, we propose Cluster-driven Expert Pruning (C-Prune), a novel two-stage framework for adaptive task-specific compression of MoE LLMs. C-Prune operates through layer-wise expert clustering, which groups functionally similar experts within each MoE layer using parameter similarity metrics, followed by global cluster pruning, which eliminates redundant clusters across all layers through a unified importance scoring mechanism that accounts for cross-layer homogeneity. We validate C-Prune through extensive experiments on multiple MoE models and benchmarks. The results demonstrate that C-Prune effectively reduces model size while outperforming existing MoE pruning methods.

Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理