52B to 1T: Lessons Learned via Tele-FLM Series

作者: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang

分类: cs.CL, cs.AI

发布日期: 2024-07-03

备注: For the Tele-FLM-52B tech report, see also 2404.16645

💡 一句话要点

Tele-FLM系列：从52B到1T参数LLM的扩展经验与实践

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 模型扩展 Tele-FLM 开源模型

📋 核心要点

现有LLM训练面临数据效率和模型扩展性的挑战，尤其是在超过500亿参数规模时。
论文探索了监督微调（SFT）的数据构建策略，并验证了“少即是多”的有效性。
通过逐步扩展模型规模，论文分享了从52B到1T参数LLM的训练经验，并开源了1T模型。

📝 摘要（中文）

大型语言模型（LLM）是迈向通用人工智能的重要一步。随着缩放定律强调增大模型规模的潜力，学术界加大了对超过500亿参数LLM的研究力度。本技术报告基于我们之前关于Tele-FLM（也称为FLM-2）的工作，这是一个公开可用的520亿参数模型。我们深入研究两个主要领域：首先，我们讨论了在Tele-FLM-52B上进行监督微调（SFT）的观察结果，这支持了SFT数据构建的“少即是多”方法；其次，我们展示了我们在将模型从520亿逐步扩展到1020亿，再到1万亿参数的最佳实践方面的实验和分析。我们将开源一个1T模型检查点，即Tele-FLM-1T，以促进进一步的训练和研究。

🔬 方法详解

问题定义：论文旨在解决如何高效地训练和扩展超大规模语言模型（LLM），特别是参数量超过500亿的模型。现有方法在SFT数据构建上可能存在冗余，且模型扩展过程缺乏系统性的最佳实践指导，导致训练效率低下和资源浪费。

核心思路：论文的核心思路是探索SFT数据构建的“少即是多”原则，即通过精心挑选高质量的少量数据，达到甚至超过使用大量数据的效果。同时，通过逐步扩展模型规模，并分析不同阶段的训练效果，总结出一套适用于超大规模LLM训练的最佳实践。

技术框架：论文的技术框架主要包含两个部分：一是SFT数据构建策略的探索，二是模型规模的逐步扩展。在SFT方面，研究了不同数据量和数据质量对模型性能的影响。在模型扩展方面，从52B参数开始，逐步扩展到102B和1T参数，并在每个阶段进行详细的实验和分析。

关键创新：论文的关键创新在于验证了SFT数据构建的“少即是多”原则，并提供了一套可行的超大规模LLM逐步扩展的实践方法。与现有方法相比，该方法更加注重数据质量和训练效率，能够在有限的资源下训练出性能优异的超大规模LLM。

关键设计：论文的关键设计包括：(1) SFT数据选择策略，可能涉及数据清洗、去重、以及基于特定任务或领域的筛选；(2) 模型扩展策略，可能涉及逐步增加模型层数、隐藏层维度等，并监控训练过程中的性能指标；(3) 训练参数设置，如学习率、batch size、优化器等，需要根据模型规模和数据特点进行调整。

📊 实验亮点

论文通过实验验证了在Tele-FLM-52B上进行SFT时，“少即是多”的数据构建方法是有效的。此外，论文还成功地将模型扩展到1T参数，并开源了Tele-FLM-1T模型，为后续研究提供了宝贵的资源和经验。

🎯 应用场景

该研究成果可应用于各种需要大规模语言模型的场景，如智能客服、文本生成、机器翻译、知识问答等。通过开源1T模型，可以促进学术界和工业界对超大规模LLM的进一步研究和应用，推动通用人工智能的发展。

📄 摘要（原文）

Large Language Models (LLMs) represent a significant stride toward Artificial General Intelligence. As scaling laws underscore the potential of increasing model sizes, the academic community has intensified its investigations into LLMs with capacities exceeding 50 billion parameters. This technical report builds on our prior work with Tele-FLM (also known as FLM-2), a publicly available 52-billion-parameter model. We delve into two primary areas: we first discuss our observation of Supervised Fine-tuning (SFT) on Tele-FLM-52B, which supports the "less is more" approach for SFT data construction; second, we demonstrate our experiments and analyses on the best practices for progressively growing a model from 52 billion to 102 billion, and subsequently to 1 trillion parameters. We will open-source a 1T model checkpoint, namely Tele-FLM-1T, to advance further training and research.

52B to 1T: Lessons Learned via Tele-FLM Series

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理