Llama 3 Meets MoE: Efficient Upcycling

作者: Aditya Vavre, Ethan He, Dennis Liu, Zijie Yan, June Yang, Nima Tajbakhsh, Ashwath Aithal

分类: cs.LG

发布日期: 2024-12-13

💡 一句话要点

利用Llama 3高效训练MoE模型：低成本实现性能提升

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 MoE 大型语言模型 Llama 3 高效训练 模型升级 预训练模型 模型微调

📋 核心要点

现有LLM扩展面临高昂计算成本，MoE模型虽能提升容量，但从头训练存在过拟合和路由问题。
该论文提出利用预训练的稠密模型检查点，以极低的计算成本训练MoE模型，实现高效升级。
实验结果表明，该方法在MMLU上的0-shot准确率提高了2%，模型FLOPs利用率达到46.8%。

📝 摘要（中文）

扩展大型语言模型(LLMs)能显著提升性能，但计算成本也随之增加。混合专家模型(MoE)提供了一种高效的替代方案，能在不按比例增加计算需求的情况下提升模型容量。然而，从头开始训练MoE模型面临过拟合和路由不稳定等挑战。我们提出了一种高效的训练方法，利用预训练的稠密模型检查点，以低于典型预训练计算量1%的成本，从Llama 3-8B训练了一个8专家Top-2 MoE模型。我们的方法增强了学术基准测试的下游性能，在MMLU上的0-shot准确率提高了2%，并且在使用我们的框架训练时，模型FLOPs利用率(MFU)达到了46.8%。我们还在NeMo中集成了在线升级，以无缝使用预训练权重，从而经济高效地开发高容量MoE模型。

🔬 方法详解

问题定义：论文旨在解决从头训练MoE模型计算成本高昂且易出现过拟合和路由不稳定的问题。现有方法要么需要大量的计算资源，要么难以保证MoE模型的训练稳定性和性能。

核心思路：论文的核心思路是利用预训练的稠密模型（如Llama 3）作为MoE模型的初始化，通过微调的方式将稠密模型转化为MoE模型。这种方法避免了从头训练MoE模型的困难，显著降低了计算成本，并继承了预训练模型的知识。

技术框架：整体框架包括以下几个阶段：1) 选择预训练的稠密模型作为基础；2) 在稠密模型中引入MoE层，通常是在Transformer的FFN层；3) 使用少量数据和计算资源对MoE模型进行微调，优化专家路由和模型参数；4) 在下游任务上评估微调后的MoE模型性能。

关键创新：最重要的技术创新点在于利用预训练的稠密模型进行MoE模型的“upcycling”，即高效升级。与从头训练相比，这种方法极大地降低了计算成本，并能更快地获得高性能的MoE模型。此外，论文还集成了在线升级到NeMo，方便使用预训练权重。

关键设计：论文使用Llama 3-8B作为预训练的稠密模型，构建了一个8专家Top-2 MoE模型。这意味着每个输入token会路由到两个最相关的专家。训练时，使用了特定的学习率策略和正则化方法，以防止过拟合和保证路由的稳定性。具体参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果显示，使用该方法训练的MoE模型在MMLU基准测试上的0-shot准确率提高了2%，达到了显著的性能提升。更重要的是，训练过程中的模型FLOPs利用率(MFU)达到了46.8%，表明该方法具有很高的计算效率。与从头训练MoE模型相比，该方法所需的计算资源大幅减少，成本降低。

🎯 应用场景

该研究成果可广泛应用于需要高容量和高性能语言模型的场景，例如智能客服、内容生成、代码生成、机器翻译等。通过利用预训练模型进行MoE升级，可以降低模型训练成本，加速模型迭代，并促进更大规模MoE模型的发展。该方法也适用于其他模态的模型，例如图像和语音。

📄 摘要（原文）

Scaling large language models (LLMs) significantly improves performance but comes with prohibitive computational costs. Mixture-of-Experts (MoE) models offer an efficient alternative, increasing capacity without a proportional rise in compute requirements. However, training MoE models from scratch poses challenges like overfitting and routing instability. We present an efficient training recipe leveraging pre-trained dense checkpoints, training an 8-Expert Top-2 MoE model from Llama 3-8B with less than $1\%$ of typical pre-training compute. Our approach enhances downstream performance on academic benchmarks, achieving a $\textbf{2%}$ improvement in 0-shot accuracy on MMLU, while reaching a Model FLOPs Utilization (MFU) of $\textbf{46.8%}$ during training using our framework. We also integrate online upcycling in NeMo for seamless use of pre-trained weights, enabling cost-effective development of high-capacity MoE models.