FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
作者: Hao Kang, Zichun Yu, Chenyan Xiong
分类: cs.CL, cs.LG
发布日期: 2025-05-26
备注: All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE
🔗 代码/项目: GITHUB
💡 一句话要点
FLAME-MoE:开源混合专家语言模型研究平台,促进可复现性研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 大型语言模型 开源平台 模型训练 路由算法 专家行为分析 可复现性研究
📋 核心要点
- 现有MoE模型研究缺乏开放且完整的平台,限制了学术界对模型扩展、路由机制和专家行为的深入探索。
- FLAME-MoE提供了一套开源MoE模型,包含训练数据、脚本和日志,旨在促进可复现的研究和实验。
- 实验结果表明,FLAME-MoE在多个任务上优于同等计算量的密集模型,并提供了专家行为的初步分析。
📝 摘要(中文)
Gemini-1.5、DeepSeek-V3和Llama-4等大型语言模型越来越多地采用混合专家(MoE)架构,通过仅激活每个token模型的一小部分,实现了强大的效率-性能权衡。然而,学术研究人员仍然缺乏一个完全开放、端到端的MoE平台,用于研究扩展、路由和专家行为。我们发布了FLAME-MoE,这是一个完全开源的研究套件,由七个仅解码器模型组成,范围从38M到1.7B个激活参数,其架构——64个专家,top-8门控和2个共享专家——紧密反映了现代生产LLM。所有训练数据管道、脚本、日志和检查点都是公开可用的,以实现可重复的实验。在六个评估任务中,FLAME-MoE比使用相同FLOP训练的密集基线提高了高达3.4个百分点的平均准确率。利用完整的训练跟踪透明度,我们提出了初步分析,表明(i)专家越来越多地专门研究不同的token子集,(ii)共激活矩阵保持稀疏,反映了不同的专家使用情况,以及(iii)路由行为在训练早期稳定。所有代码、训练日志和模型检查点都可以在https://github.com/cmu-flame/FLAME-MoE上找到。
🔬 方法详解
问题定义:现有的大型语言模型,特别是混合专家模型(MoE),在学术界缺乏一个完全开放、端到端的平台来进行深入研究。这限制了研究人员对MoE模型的可扩展性、路由机制以及各个专家的行为进行探索,阻碍了相关技术的进步。
核心思路:FLAME-MoE的核心思路是提供一个完全开源的MoE模型研究平台,包括模型架构、训练数据、训练脚本和日志等,从而实现可复现的研究。通过提供透明的训练过程和模型细节,鼓励学术界对MoE模型进行更深入的分析和改进。
技术框架:FLAME-MoE包含七个仅解码器模型,参数量从38M到1.7B不等。这些模型采用MoE架构,包含64个专家,使用top-8门控机制,并包含2个共享专家。该架构的设计旨在尽可能地贴近现代生产级别的LLM。整个框架包括数据预处理管道、模型训练脚本、评估脚本以及详细的训练日志。
关键创新:FLAME-MoE的关键创新在于其完全开源和透明的设计。它不仅提供了模型权重,还公开了完整的训练过程,包括数据处理、训练脚本和日志。这种透明性使得研究人员可以深入了解模型的行为,并进行可复现的实验。
关键设计:FLAME-MoE的关键设计包括:(1) 采用64个专家和top-8门控机制,以实现高效的计算和参数利用率;(2) 提供详细的训练日志,记录了训练过程中的各种指标,方便研究人员进行分析;(3) 提供了多种规模的模型,方便研究人员根据自己的计算资源进行选择;(4) 包含2个共享专家,用于提升模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
FLAME-MoE在六个评估任务中,相较于使用相同计算量训练的密集模型,平均准确率提升高达3.4个百分点。通过分析训练日志,研究人员发现专家逐渐专门化于不同的token子集,共激活矩阵保持稀疏,且路由行为在训练早期就趋于稳定。
🎯 应用场景
FLAME-MoE平台可应用于大规模语言模型的研究,例如探索更有效的路由算法、分析专家之间的协作关系、以及优化MoE模型的训练策略。该平台能够加速MoE模型在自然语言处理领域的应用,并促进更高效、更强大的语言模型的开发。
📄 摘要(原文)
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.