Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

作者: Ling Team, Binwei Zeng, Chao Huang, Chao Zhang, Changxin Tian, Cong Chen, Dingnan Jin, Feng Yu, Feng Zhu, Feng Yuan, Fakang Wang, Gangshan Wang, Guangyao Zhai, Haitao Zhang, Huizhong Li, Jun Zhou, Jia Liu, Junpeng Fang, Junjie Ou, Jun Hu, Ji Luo, Ji Zhang, Jian Liu, Jian Sha, Jianxue Qian, Jiewei Wu, Junping Zhao, Jianguo Li, Jubao Feng, Jingchao Di, Junming Xu, Jinghua Yao, Kuan Xu, Kewei Du, Longfei Li, Lei Liang, Lu Yu, Li Tang, Lin Ju, Peng Xu, Qing Cui, Song Liu, Shicheng Li, Shun Song, Song Yan, Tengwei Cai, Tianyi Chen, Ting Guo, Ting Huang, Tao Feng, Tao Wu, Wei Wu, Xiaolu Zhang, Xueming Yang, Xin Zhao, Xiaobo Hu, Xin Lin, Yao Zhao, Yilong Wang, Yongzhen Guo, Yuanyuan Wang, Yue Yang, Yang Cao, Yuhao Fu, Yi Xiong, Yanzhe Li, Zhe Li, Zhiqiang Zhang, Ziqi Liu, Zhaoxin Huan, Zujie Wen, Zhenhang Sun, Zhuoxuan Du, Zhengyu He

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-03-07 (更新: 2025-03-10)

备注: 34 pages

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

Ling团队提出低成本MoE大语言模型，在消费级硬件上训练300B参数模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 大语言模型 低成本训练 知识图谱 模型优化

📋 核心要点

现有MoE模型训练成本高昂，资源需求大，限制了其在资源受限环境中的应用。
通过优化模型架构、训练流程、异常处理和评估效率，降低MoE模型训练成本。
实验表明，300B MoE LLM可在低性能设备上训练，性能与同规模模型相当，计算成本降低约20%。

📝 摘要（中文）

本技术报告旨在解决大规模混合专家(MoE)模型训练中普遍存在的成本高昂和资源受限问题。我们提出了两种不同规模的MoE大语言模型，即Ling-Lite和Ling-Plus（中文名为“百灵”）。Ling-Lite包含168亿参数，激活参数为27.5亿，而Ling-Plus拥有2900亿参数，激活参数为288亿。两种模型都展现出与领先行业基准相当的性能。本报告提供了可行的见解，以提高资源受限环境中人工智能开发的效率和可访问性，从而促进更具可扩展性和可持续性的技术。具体而言，为了降低大规模MoE模型的训练成本，我们提出了优化模型架构和训练过程、改进训练异常处理以及提高模型评估效率的创新方法。此外，利用从知识图谱生成的高质量数据，我们的模型在工具使用方面表现出优于其他模型的能力。实验结果表明，300B MoE LLM可以在较低性能的设备上有效地训练，同时实现与类似规模模型（包括密集模型和MoE模型）相当的性能。与高性能设备相比，在预训练阶段使用较低规格的硬件系统可以显著节省成本，将计算成本降低约20%。

🔬 方法详解

问题定义：现有大规模混合专家模型（MoE）的训练面临着高昂的计算成本和巨大的资源需求，这使得许多研究机构和开发者难以负担。现有的解决方案往往依赖于昂贵的专用硬件（如高端GPU），并且在训练过程中需要大量的工程优化和调试，增加了开发难度和时间成本。

核心思路：论文的核心思路是通过优化模型架构、训练流程和评估方法，降低MoE模型的训练成本，使其能够在较低性能的硬件上进行训练。具体而言，通过精简模型结构、改进训练过程中的异常处理、以及提升模型评估的效率，从而在保证模型性能的前提下，显著降低对计算资源的需求。

技术框架：整体框架包括数据准备、模型构建、训练和评估四个主要阶段。数据准备阶段利用知识图谱生成高质量的训练数据，模型构建阶段设计了两种不同规模的MoE模型（Ling-Lite和Ling-Plus），训练阶段采用了优化的训练策略和异常处理机制，评估阶段则侧重于高效的模型性能评估。

关键创新：最重要的技术创新点在于针对MoE模型的低成本训练方法。这包括：1) 模型架构的优化，减少了不必要的参数和计算量；2) 训练过程的改进，例如更有效的梯度累积和优化器选择；3) 训练异常处理的增强，提高了训练的稳定性和效率；4) 模型评估效率的提升，减少了评估所需的计算资源。

关键设计：论文中没有详细说明具体的参数设置、损失函数或网络结构等技术细节，但强调了模型架构的优化和训练过程的改进。例如，可能采用了更轻量级的专家网络结构，或者使用了更高效的优化算法。此外，知识图谱的使用也可能影响了数据的组织方式和损失函数的设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的Ling-Lite和Ling-Plus模型在性能上与领先的行业基准相当，同时显著降低了训练成本。具体而言，在预训练阶段使用较低规格的硬件系统可以将计算成本降低约20%。此外，利用知识图谱生成的高质量数据，模型在工具使用方面表现出优于其他模型的能力。

🎯 应用场景

该研究成果可应用于自然语言处理的多个领域，如智能客服、机器翻译、文本生成等。通过降低大语言模型的训练成本，使得更多机构和开发者能够参与到AI模型的研发中，加速AI技术的普及和应用。此外，该方法在资源受限的环境下具有重要意义，例如在边缘计算设备上部署大型语言模型。

📄 摘要（原文）

In this technical report, we tackle the challenges of training large-scale Mixture of Experts (MoE) models, focusing on overcoming cost inefficiency and resource limitations prevalent in such systems. To address these issues, we present two differently sized MoE large language models (LLMs), namely Ling-Lite and Ling-Plus (referred to as "Bailing" in Chinese, spelled Bǎilíng in Pinyin). Ling-Lite contains 16.8 billion parameters with 2.75 billion activated parameters, while Ling-Plus boasts 290 billion parameters with 28.8 billion activated parameters. Both models exhibit comparable performance to leading industry benchmarks. This report offers actionable insights to improve the efficiency and accessibility of AI development in resource-constrained settings, promoting more scalable and sustainable technologies. Specifically, to reduce training costs for large-scale MoE models, we propose innovative methods for (1) optimization of model architecture and training processes, (2) refinement of training anomaly handling, and (3) enhancement of model evaluation efficiency. Additionally, leveraging high-quality data generated from knowledge graphs, our models demonstrate superior capabilities in tool use compared to other models. Ultimately, our experimental findings demonstrate that a 300B MoE LLM can be effectively trained on lower-performance devices while achieving comparable performance to models of a similar scale, including dense and MoE models. Compared to high-performance devices, utilizing a lower-specification hardware system during the pre-training phase demonstrates significant cost savings, reducing computing costs by approximately 20%. The models can be accessed at https://huggingface.co/inclusionAI.

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理