LLM360: Towards Fully Transparent Open-Source LLMs
作者: Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, Eric P. Xing
分类: cs.CL, cs.AI, cs.LG
发布日期: 2023-12-11
💡 一句话要点
提出LLM360以实现完全透明的开源大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开源模型 大型语言模型 透明性 训练过程 协作研究 自然语言处理 模型复现
📋 核心要点
- 现有的开源大型语言模型通常只提供部分信息,缺乏训练过程的透明度,限制了研究的深入。
- LLM360倡导全面开源,提供所有训练代码、数据和中间结果,旨在提升LLM的透明性和可重复性。
- 首次发布的Amber和CrystalCoder模型,包含完整的训练信息,标志着开源LLM研究的新起点。
📝 摘要(中文)
近期开源大型语言模型(LLMs)的快速发展,如LLaMA、Falcon和Mistral,为AI从业者和研究人员提供了多样化的选择。然而,大多数LLM仅发布了部分成果,如最终模型权重或推理代码,技术报告的范围也越来越局限于高层设计选择和表面统计。这些选择降低了对LLM训练过程的透明度,迫使团队重新发现训练过程中的许多细节。我们提出LLM360,倡导全面开源LLM,支持所有训练代码和数据、模型检查点及中间结果的共享。LLM360的目标是通过使LLM训练过程透明和可重复,支持开放和协作的AI研究。作为LLM360的第一步,我们发布了两个从头开始预训练的7B参数LLM,Amber和CrystalCoder,包括其训练代码、数据、中间检查点和分析。我们致力于通过这一开源努力不断推动LLM的边界。
🔬 方法详解
问题定义:当前开源大型语言模型(LLMs)通常只发布部分成果,缺乏对训练过程的全面透明度,限制了研究人员的深入理解和复现能力。
核心思路:LLM360倡导全面开源,要求提供所有训练代码、数据、模型检查点和中间结果,以支持开放和协作的AI研究。通过这种方式,研究人员可以更好地理解和复现LLM的训练过程。
技术框架:LLM360的整体架构包括数据准备、模型训练、检查点保存和结果分析等多个模块。每个模块都提供详细的实现代码和文档,确保透明性和可重复性。
关键创新:LLM360的最大创新在于全面开放所有训练相关的信息,打破了以往只提供部分模型权重或推理代码的局限,极大提升了研究的透明度。
关键设计:在模型设计上,Amber和CrystalCoder均为7B参数的LLM,采用了先进的训练算法和损失函数,确保模型在多种任务上的表现优异。
📊 实验亮点
在首次发布的Amber和CrystalCoder模型中,研究团队展示了其在多个基准测试上的优越性能,具体提升幅度和性能数据尚未公开,但整体目标是显著提高模型的可复现性和透明度。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统、文本生成等。通过提供透明的训练过程,研究人员和开发者可以更容易地在此基础上进行创新,推动AI技术的进步和应用落地。
📄 摘要(原文)
The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.