ToMoE: Converting Dense Large Language Models to Mixture-of-Experts through Dynamic Structural Pruning
作者: Shangqian Gao, Ting Hua, Reza Shirkavand, Chi-Heng Lin, Zheng Tang, Zhengao Li, Longge Yuan, Fangyi Li, Zeyu Zhang, Alireza Ganjdanesh, Lou Qian, Xu Jie, Yen-Chang Hsu
分类: cs.LG, cs.CL
发布日期: 2025-01-25 (更新: 2026-01-02)
💡 一句话要点
ToMoE:通过动态结构剪枝将稠密大语言模型转化为混合专家模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 混合专家模型 动态剪枝 模型压缩 资源受限部署
📋 核心要点
- 现有大语言模型计算和内存成本高昂,难以在资源受限设备上部署,永久性结构剪枝会导致性能显著下降。
- 提出一种可微动态剪枝方法ToMoE,将稠密模型的MLP层转化为MoE架构,在不永久移除参数的情况下减少活跃参数。
- 实验结果表明,即使没有微调,ToMoE在Phi-2、LLaMA-2、LLaMA-3和Qwen-2.5等模型上均优于之前的结构剪枝方法。
📝 摘要(中文)
大型语言模型(LLMs)在处理各种复杂任务方面表现出了卓越的能力。然而,它们巨大的计算和内存成本给在资源受限的设备上部署这些模型或高效地服务它们带来了重大挑战。先前的方法试图通过永久移除不太重要的模型结构来缓解这些问题,但由于永久删除模型参数,这些方法通常会导致严重的性能下降。在这项工作中,我们试图通过减少活跃参数的数量而不永久移除它们来缓解这个问题。具体来说,我们引入了一种可微的动态剪枝方法,该方法通过将其MLP层转换为混合专家(MoE)架构,推动稠密模型保持固定数量的活跃参数。我们的方法,即使没有微调,也始终优于包括Phi-2、LLaMA-2、LLaMA-3和Qwen-2.5在内的各种模型系列的先前结构剪枝技术。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)虽然能力强大,但其巨大的计算和内存需求限制了它们在资源受限环境中的部署和高效服务。传统的结构剪枝方法通过永久移除模型中不重要的部分来降低资源消耗,但这种永久性的删除往往会导致模型性能的显著下降,因为被移除的参数可能仍然包含有用的信息。
核心思路:ToMoE的核心思路是在不永久移除模型参数的前提下,减少模型在推理过程中实际使用的参数数量。通过将稠密模型的MLP层转换为混合专家(MoE)架构,模型可以根据输入动态地选择激活一部分专家(即部分参数),从而在保持模型容量的同时,降低计算成本。
技术框架:ToMoE方法主要包含以下几个阶段:1) 稠密模型初始化:从预训练的稠密LLM开始。2) MLP层转换:将稠密模型的MLP层替换为MoE层。3) 动态剪枝训练:使用可微的动态剪枝方法训练模型,目标是使模型在每个时刻只激活固定数量的参数。4) 推理:在推理阶段,根据输入动态选择激活的专家,并进行计算。
关键创新:ToMoE的关键创新在于其动态结构剪枝方法,该方法允许模型在训练过程中学习哪些参数应该被激活,哪些参数应该被抑制。与传统的静态剪枝方法不同,ToMoE不会永久移除任何参数,而是通过动态调整参数的激活状态来适应不同的输入。这种动态性使得模型能够在保持模型容量的同时,降低计算成本。
关键设计:ToMoE使用可微的动态剪枝方法,这意味着模型的剪枝决策可以通过梯度下降进行优化。具体来说,模型使用一个门控网络来决定每个专家的激活概率,然后使用一个损失函数来鼓励模型只激活固定数量的专家。损失函数可能包含L0正则化项或其他稀疏性约束。此外,模型的训练过程可能包括微调阶段,以进一步提高模型的性能。
🖼️ 关键图片
📊 实验亮点
ToMoE在多个模型系列(包括Phi-2、LLaMA-2、LLaMA-3和Qwen-2.5)上进行了实验,结果表明,即使没有微调,ToMoE也始终优于之前的结构剪枝技术。具体的性能提升数据未知,但摘要强调了其一致性和优越性,表明ToMoE是一种有效的模型压缩方法。
🎯 应用场景
ToMoE方法可以广泛应用于各种需要部署大型语言模型的场景,尤其是在资源受限的设备上,如移动设备、边缘计算设备等。该方法可以降低模型的计算和内存需求,从而使得这些设备能够运行更大、更强大的模型。此外,ToMoE还可以用于提高大型语言模型的推理效率,降低服务成本,使其能够更广泛地应用于各种实际应用中。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated remarkable abilities in tackling a wide range of complex tasks. However, their huge computational and memory costs raise significant challenges in deploying these models on resource-constrained devices or efficiently serving them. Prior approaches have attempted to alleviate these problems by permanently removing less important model structures, yet these methods often result in substantial performance degradation due to the permanent deletion of model parameters. In this work, we tried to mitigate this issue by reducing the number of active parameters without permanently removing them. Specifically, we introduce a differentiable dynamic pruning method that pushes dense models to maintain a fixed number of active parameters by converting their MLP layers into a Mixture of Experts (MoE) architecture. Our method, even without fine-tuning, consistently outperforms previous structural pruning techniques across diverse model families, including Phi-2, LLaMA-2, LLaMA-3, and Qwen-2.5.