Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models

📄 arXiv: 2504.07807v1 📥 PDF

作者: Hongcheng Guo, Juntao Yao, Boyang Wang, Junjia Du, Shaosheng Cao, Donglin Di, Shun Zhang, Zhoujun Li

分类: cs.CL

发布日期: 2025-04-10


💡 一句话要点

提出C-Prune,通过聚类驱动的专家剪枝压缩MoE大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 模型剪枝 大语言模型 模型压缩 聚类算法

📋 核心要点

  1. MoE模型参数量巨大,部署困难,现有剪枝方法忽略了层内专家同质性和层间相似性。
  2. C-Prune通过层内专家聚类和跨层聚类剪枝,自适应地压缩MoE模型,减少冗余。
  3. 实验表明,C-Prune在减少模型大小的同时,性能优于现有MoE剪枝方法。

📝 摘要(中文)

混合专家模型(MoE)架构已成为扩展具有任务特定专家稀疏激活的大型语言模型(LLM)的一种有前景的范例。尽管MoE模型在推理过程中具有计算效率,但其庞大的总体参数规模(例如,GPT-4)为实际部署带来了严峻挑战。目前的剪枝方法通常无法解决MoE系统的两个固有特性:1)层内专家同质性,即同一MoE层内的专家表现出功能冗余;2)层间相似性模式,即更深层往往包含逐渐同质化的专家。为了解决这些问题,我们提出了一种新的两阶段框架——聚类驱动的专家剪枝(C-Prune),用于自适应地对MoE LLM进行任务特定压缩。C-Prune通过分层专家聚类来工作,该聚类使用参数相似性度量对每个MoE层中功能相似的专家进行分组,然后进行全局聚类剪枝,通过统一的重要性评分机制消除跨层冗余聚类,该机制考虑了跨层同质性。我们通过对多个MoE模型和基准进行的大量实验验证了C-Prune。结果表明,C-Prune有效地减少了模型大小,同时优于现有的MoE剪枝方法。

🔬 方法详解

问题定义:MoE模型虽然推理高效,但参数量巨大,部署成本高昂。现有剪枝方法未能充分利用MoE模型中专家之间的冗余性,特别是层内专家同质性和层间相似性,导致剪枝效果不佳。

核心思路:C-Prune的核心思路是识别并消除MoE模型中功能冗余的专家。通过聚类将功能相似的专家分组,然后根据重要性评分剪枝冗余的专家簇,从而在保持性能的同时减少模型大小。这种方法充分利用了MoE模型中专家之间的冗余性,实现了更有效的压缩。

技术框架:C-Prune是一个两阶段框架:1) 层内专家聚类:对每个MoE层内的专家进行聚类,将功能相似的专家分组。使用参数相似性度量(具体度量方式未知)来衡量专家之间的相似度。2) 全局聚类剪枝:跨所有层消除冗余的聚类。使用统一的重要性评分机制来评估每个聚类的重要性,该机制考虑了跨层同质性。根据重要性评分剪枝不重要的聚类。

关键创新:C-Prune的关键创新在于其聚类驱动的剪枝方法,它显式地考虑了MoE模型中层内专家同质性和层间相似性。与现有方法相比,C-Prune能够更准确地识别和消除冗余专家,从而实现更高的压缩率和更好的性能。

关键设计:具体的参数相似性度量方式未知。重要性评分机制的具体计算方法未知,但它需要考虑跨层同质性。聚类的具体算法未知,但需要能够处理高维参数空间。剪枝比例的确定方法未知,可能需要根据具体任务和模型进行调整。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,C-Prune在多个MoE模型和基准测试中都优于现有的MoE剪枝方法。具体性能提升数据未知,但摘要中强调C-Prune有效地减少了模型大小,同时保持或提高了模型性能。这表明C-Prune是一种有效的MoE模型压缩方法。

🎯 应用场景

C-Prune可应用于各种MoE大语言模型的压缩和部署,尤其适用于资源受限的场景,如移动设备、边缘计算等。通过降低模型大小,可以减少存储空间需求、降低计算成本、提高推理速度,从而加速MoE模型在实际应用中的落地。

📄 摘要(原文)

Mixture-of-Experts (MoE) architectures have emerged as a promising paradigm for scaling large language models (LLMs) with sparse activation of task-specific experts. Despite their computational efficiency during inference, the massive overall parameter footprint of MoE models (e.g., GPT-4) introduces critical challenges for practical deployment. Current pruning approaches often fail to address two inherent characteristics of MoE systems: 1).intra-layer expert homogeneity where experts within the same MoE layer exhibit functional redundancy, and 2). inter-layer similarity patterns where deeper layers tend to contain progressively more homogeneous experts. To tackle these issues, we propose Cluster-driven Expert Pruning (C-Prune), a novel two-stage framework for adaptive task-specific compression of MoE LLMs. C-Prune operates through layer-wise expert clustering, which groups functionally similar experts within each MoE layer using parameter similarity metrics, followed by global cluster pruning, which eliminates redundant clusters across all layers through a unified importance scoring mechanism that accounts for cross-layer homogeneity. We validate C-Prune through extensive experiments on multiple MoE models and benchmarks. The results demonstrate that C-Prune effectively reduces model size while outperforming existing MoE pruning methods.