LLaMA-MoE v2: Exploring Sparsity of LLaMA from Perspective of Mixture-of-Experts with Post-Training

📄 arXiv: 2411.15708v1 📥 PDF

作者: Xiaoye Qu, Daize Dong, Xuyang Hu, Tong Zhu, Weigao Sun, Yu Cheng

分类: cs.CL

发布日期: 2024-11-24

备注: Technical report,13 pages

🔗 代码/项目: GITHUB


💡 一句话要点

通过后训练探索LLaMA模型的稀疏性,构建高效MoE模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 模型稀疏化 大型语言模型 后训练 LLaMA 指令型LLM 注意力机制 MLP

📋 核心要点

  1. 现有稠密LLM模型参数量巨大,推理成本高昂,探索模型稀疏性是降低成本的关键。
  2. 通过将LLaMA模型的Attention和MLP层替换为MoE结构,实现模型稀疏化,降低计算量。
  3. 设计两阶段后训练策略,缓解稀疏化带来的性能下降,并在LLaMA3上验证了有效性。

📝 摘要(中文)

本文通过在Transformer模块的注意力机制(Attention MoE)和MLP层(MLP MoE)中构建混合专家模型(MoE),深入研究了稠密LLaMA模型的稀疏性。具体而言,研究在相同激活条件下,不同的专家构建方法和粒度对模型稀疏化的影响。此外,为了全面评估模型在对话、代码、数学等多个领域的性能,将稀疏性应用于指令型大型语言模型(LLMs),并构建指令型MoE模型。为了弥补稀疏性增加导致的性能下降,设计了一个两阶段的后训练策略来提升模型性能。在LLaMA3模型上的实验表明,该方法对于未来指令型MoE模型的发展具有潜在的有效性。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)虽然性能强大,但参数量巨大,导致推理成本高昂。如何在保持模型性能的同时,降低计算资源消耗,是当前面临的重要挑战。现有的稠密模型在推理时需要激活所有参数,效率较低。

核心思路:本文的核心思路是通过引入混合专家模型(MoE)的概念,将LLaMA模型中的部分或全部模块替换为MoE层,从而实现模型的稀疏化。MoE模型在每次推理时只激活部分专家,从而降低计算量,提高效率。通过探索不同的专家构建方法和粒度,找到最佳的稀疏化方案。

技术框架:本文的技术框架主要包括以下几个部分:1) 构建Attention MoE和MLP MoE,分别替换LLaMA模型中的注意力机制和MLP层;2) 探索不同的专家构建方法和粒度,例如,不同的专家数量、不同的专家选择策略等;3) 将稀疏化应用于指令型LLMs,构建指令型MoE模型;4) 设计两阶段后训练策略,包括预热阶段和微调阶段,以恢复模型性能。

关键创新:本文的关键创新在于:1) 系统性地研究了LLaMA模型的稀疏性,并提出了基于MoE的稀疏化方案;2) 探索了不同的专家构建方法和粒度,并分析了它们对模型性能的影响;3) 提出了两阶段后训练策略,有效地缓解了稀疏化带来的性能下降。与现有方法相比,本文更加关注模型稀疏性的探索和优化。

关键设计:在专家构建方面,探索了不同的专家数量(例如,4个专家、8个专家等)和不同的专家选择策略(例如,Top-K选择、随机选择等)。在后训练策略方面,设计了一个两阶段的训练过程,首先进行预热训练,以恢复模型的通用能力,然后进行微调训练,以提升模型在特定任务上的性能。损失函数采用标准的交叉熵损失函数,并根据需要添加正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过引入MoE结构和两阶段后训练策略,可以在保持模型性能的同时,显著降低计算量。具体而言,在LLaMA3模型上,该方法能够在一定程度上恢复稀疏化带来的性能损失,并展现出在指令型MoE模型上的潜力。虽然文中没有给出明确的性能数据,但强调了该方法在未来MoE模型发展中的有效性。

🎯 应用场景

该研究成果可应用于各种需要高效推理的大型语言模型应用场景,例如智能对话机器人、文本生成、代码生成等。通过降低模型推理成本,可以使得LLM在资源受限的设备上运行,并加速LLM的部署和应用。未来,该研究可以进一步扩展到其他类型的LLM,并探索更加高效的稀疏化方案。

📄 摘要(原文)

Recently, inspired by the concept of sparsity, Mixture-of-Experts (MoE) models have gained increasing popularity for scaling model size while keeping the number of activated parameters constant. In this study, we thoroughly investigate the sparsity of the dense LLaMA model by constructing MoE for both the attention (i.e., Attention MoE) and MLP (i.e., MLP MoE) modules in the transformer blocks. Specifically, we investigate different expert construction methods and granularities under the same activation conditions to analyze the impact of sparsifying the model. Additionally, to comprehensively evaluate the model's capabilities across various domains (e.g., conversation, code, math) after sparsification, we apply sparsity to the instructed large language models (LLMs) and construct instructed MoE models. To counteract the performance degradation resulting from increased sparsity, we design a two-stage post-training strategy to enhance model performance. Experiments on the LLaMA3 model demonstrate the potential effectiveness of this approach for future developments of instructed MoE models. The source codes and models are available at: \url{https://github.com/OpenSparseLLMs/LLaMA-MoE-v2}.