LLM360 K2: Building a 65B 360-Open-Source Large Language Model from Scratch

📄 arXiv: 2501.07124v3 📥 PDF

作者: Zhengzhong Liu, Bowen Tan, Hongyi Wang, Willie Neiswanger, Tianhua Tao, Haonan Li, Fajri Koto, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Liqun Ma, Liping Tang, Nikhil Ranjan, Yonghao Zhuang, Guowei He, Renxi Wang, Mingkai Deng, Robin Algayres, Yuanzhi Li, Zhiqiang Shen, Preslav Nakov, Eric Xing

分类: cs.LG

发布日期: 2025-01-13 (更新: 2025-01-17)


💡 一句话要点

LLM360 K2:从零构建650亿参数全开源大语言模型,超越LLaMA

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 开源 LLM360 模型训练 Transformer

📋 核心要点

  1. 大型语言模型训练细节不透明,阻碍研究人员学习最佳实践,如解决损失峰值。
  2. LLM360 K2项目旨在通过完全开源650亿参数模型K2 DIAMOND的训练过程来填补这一空白。
  3. K2 DIAMOND性能超越LLaMA-65B,媲美LLaMA2-70B,同时降低了计算资源需求。

📝 摘要(中文)

本文详细介绍了LLM360 K2-65B模型的训练过程,该模型是LLM360项目下规模最大、功能最强大的模型,并秉承360度全开源的理念。尽管开源LLM不断进步,但社区对于“如何训练最大的LLM?”这一问题的答案仍然不明确。由于高昂的成本,此类高容量模型的实现细节通常受到商业因素的保护。这种缺乏透明度的情况阻碍了LLM研究人员利用先前经验中的宝贵见解,例如“解决损失峰值的最佳实践是什么?”LLM360 K2项目通过提供在最大规模LLM训练过程中积累的完全透明的资源来解决这一差距。本报告重点介绍了K2项目的关键要素,包括我们的第一个模型K2 DIAMOND,这是一个650亿参数的LLM,它超越了LLaMA-65B,并且可以与LLaMA2-70B相媲美,同时需要的FLOPs和tokens更少。我们详细介绍了实施步骤,并纵向分析了K2 DIAMOND在整个训练过程中的能力。我们还概述了正在进行的项目,例如TXT360,为该系列中的未来模型奠定了基础。通过提供以前无法获得的资源,K2项目也与透明、可重复性和可访问性的360度开源原则产生共鸣,我们认为这些原则在资源密集型AI研究时代至关重要。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)训练细节通常是不公开的,这使得研究人员难以学习和复现最先进的训练方法,尤其是在解决训练过程中遇到的问题(如损失峰值)方面。商业考虑导致了这种不透明性,阻碍了LLM研究的进步。

核心思路:LLM360 K2项目的核心思路是完全开源一个大型LLM的训练过程,包括代码、数据、模型权重和训练日志等。通过提供360度的透明度,研究人员可以深入了解LLM训练的各个方面,从而加速LLM研究的进展。

技术框架:K2项目包含多个组件,包括:1) K2 DIAMOND模型:一个650亿参数的LLM;2) TXT360项目:用于收集和处理训练数据的工具;3) 开源的训练代码和配置文件;4) 详细的训练日志和性能指标。整体流程是从数据收集和预处理开始,然后使用开源代码和配置文件训练K2 DIAMOND模型,最后评估模型的性能并发布所有资源。

关键创新:K2项目最重要的创新点在于其完全开源的理念。与以往的LLM项目不同,K2项目不仅开源了模型权重,还开源了训练数据、代码和训练日志。这种完全透明的方法使得研究人员可以深入了解LLM训练的各个方面,从而加速LLM研究的进展。

关键设计:K2 DIAMOND模型采用了标准的Transformer架构,并进行了一些优化以提高训练效率。具体的参数设置、损失函数和网络结构等技术细节将在后续的报告中详细介绍。项目强调使用高质量的数据进行训练,并采用了一些数据清洗和增强技术来提高数据的质量。

🖼️ 关键图片

img_0

📊 实验亮点

K2 DIAMOND模型在性能上超越了LLaMA-65B,并且可以与LLaMA2-70B相媲美,同时需要的FLOPs和tokens更少。这一结果表明,通过精心设计和优化,可以在降低计算成本的同时,获得具有竞争力的性能。详细的性能数据和对比基线将在后续报告中公布。

🎯 应用场景

该研究成果可应用于各种自然语言处理任务,如文本生成、机器翻译、问答系统等。通过开源训练细节,有助于加速LLM领域的研究,促进更高效、更强大的LLM的开发。同时,该项目也为其他资源密集型AI研究提供了可借鉴的范例。

📄 摘要(原文)

We detail the training of the LLM360 K2-65B model, scaling up our 360-degree OPEN SOURCE approach to the largest and most powerful models under project LLM360. While open-source LLMs continue to advance, the answer to "How are the largest LLMs trained?" remains unclear within the community. The implementation details for such high-capacity models are often protected due to business considerations associated with their high cost. This lack of transparency prevents LLM researchers from leveraging valuable insights from prior experience, e.g., "What are the best practices for addressing loss spikes?" The LLM360 K2 project addresses this gap by providing full transparency and access to resources accumulated during the training of LLMs at the largest scale. This report highlights key elements of the K2 project, including our first model, K2 DIAMOND, a 65 billion-parameter LLM that surpasses LLaMA-65B and rivals LLaMA2-70B, while requiring fewer FLOPs and tokens. We detail the implementation steps and present a longitudinal analysis of K2 DIAMOND's capabilities throughout its training process. We also outline ongoing projects such as TXT360, setting the stage for future models in the series. By offering previously unavailable resources, the K2 project also resonates with the 360-degree OPEN SOURCE principles of transparency, reproducibility, and accessibility, which we believe are vital in the era of resource-intensive AI research.