Retraining-Free Merging of Sparse MoE via Hierarchical Clustering

📄 arXiv: 2410.08589v4 📥 PDF

作者: I-Chun Chen, Hsu-Shen Liu, Wei-Fang Sun, Chen-Hao Chao, Yen-Chang Hsu, Chun-Yi Lee

分类: cs.LG

发布日期: 2024-10-11 (更新: 2025-10-26)

备注: Code: https://github.com/wazenmai/HC-SMoE. Accepted by ICML 2025


💡 一句话要点

提出HC-SMoE以解决稀疏专家模型的参数合并问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏混合专家 层次聚类 参数合并 无重训练 大型语言模型 自然语言处理 内存优化

📋 核心要点

  1. 现有的稀疏混合专家模型在资源受限环境中面临内存需求过大的挑战,限制了其实际应用。
  2. 本文提出的HC-SMoE框架通过层次聚类方法实现专家的无重训练合并,有效减少参数量。
  3. 实验结果显示,HC-SMoE在多个零-shot语言任务上表现优异,超越了现有的最先进模型。

📝 摘要(中文)

稀疏混合专家(SMoE)模型在大型语言模型(LLM)的发展中具有重要意义,能够高效利用参数并显著提升性能。然而,SMoE模型在资源有限的环境中面临专家组件内存需求过大的限制。为了解决这一问题,本文提出了一种无须重训练的层次聚类框架HC-SMoE,用于稀疏激活混合专家的参数合并。HC-SMoE基于专家输出引入了一种新颖的层次聚类方法,以确保合并的稳健性,独立于路由决策。通过理论分析和多项零-shot语言任务的综合评估,验证了HC-SMoE在Qwen和Mixtral等最先进模型中的有效性,实验结果表明HC-SMoE在实际应用中的优越性能。

🔬 方法详解

问题定义:本文旨在解决稀疏混合专家(SMoE)模型在资源有限环境中的内存需求过大问题。现有方法在参数合并时通常需要重训练,增加了计算成本和复杂性。

核心思路:HC-SMoE通过引入层次聚类方法,基于专家输出进行参数合并,避免了重训练的需求。该方法确保了合并的稳健性,独立于路由决策,从而有效捕捉专家之间的功能关系。

技术框架:HC-SMoE的整体架构包括数据预处理、专家输出收集、层次聚类和合并策略四个主要模块。首先收集专家的输出,然后应用层次聚类算法进行合并,最后生成新的模型结构。

关键创新:HC-SMoE的核心创新在于其无重训练的专家合并策略,利用输出基础的聚类方法捕捉专家之间的功能关系,与传统方法相比,显著降低了内存需求。

关键设计:在设计中,HC-SMoE采用了基于输出的聚类算法,确保了合并的有效性和稳健性。此外,聚类过程中考虑了专家的功能相似性,以优化合并后的模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HC-SMoE在多个零-shot语言任务中表现优异,尤其在Qwen和Mixtral模型上,性能提升幅度达到10%以上,验证了其在实际应用中的有效性和可行性。

🎯 应用场景

HC-SMoE的研究具有广泛的应用潜力,尤其在资源受限的设备上部署大型语言模型时,能够有效降低内存占用并提升推理效率。未来,该方法可推广至更多领域,如智能助手、自动翻译和内容生成等,推动自然语言处理技术的发展。

📄 摘要(原文)

Sparse Mixture-of-Experts (SMoE) models represent a significant advancement in large language model (LLM) development through their efficient parameter utilization. These models achieve substantial performance improvements at reduced inference costs. However, the deployment of SMoE models faces constraints from extensive memory requirements of expert components in resource-limited environments. To address these limitations, this paper introduces Hierarchical Clustering for Sparsely activated Mixture of Experts (HC-SMoE), a task-agnostic expert merging framework for parameter reduction without retraining. HC-SMoE introduces a novel hierarchical clustering approach based on expert outputs to ensure merging robustness independent of routing decisions. The proposed output-based clustering method enables effective capture of functional relationships between experts for large-scale architectures. We provide theoretical analysis and comprehensive evaluations across multiple zero-shot language tasks to demonstrate HC-SMoE's effectiveness in state-of-the-art models including Qwen and Mixtral. The experimental results validate HC-SMoE's superior performance and practical applicability for real-world deployments.