1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data

📄 arXiv: 2408.03506v1 📥 PDF

作者: Calvin Tan, Jerome Wang

分类: cs.CL

发布日期: 2024-08-07

备注: Technical Report for 1.5-Pints


💡 一句话要点

1.5-Pints:通过高质量数据,在数天内完成语言模型预训练,性能超越现有模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型预训练 高质量数据 指令跟随 计算效率 Llama-2架构

📋 核心要点

  1. 现有语言模型预训练通常耗时数月,计算资源需求巨大,阻碍了研究的快速迭代和广泛应用。
  2. 1.5-Pints的核心在于通过高质量的数据集,显著缩短预训练时间,同时保证甚至提升模型性能。
  3. 实验结果表明,1.5-Pints在MT-Bench基准测试中超越了OpenELM和Phi等先进模型,证明了其有效性。

📝 摘要(中文)

本文提出了一种计算高效的语言模型预训练方法——“1.5-Pints”,仅用9天时间就完成了预训练,并在指令跟随助手方面超越了最先进的模型。在MT-Bench(一个模拟人类判断的基准)上,1.5-Pints的性能优于Apple的OpenELM和Microsoft的Phi。这一成果的取得归功于精心策划的包含570亿tokens的预训练数据集,该数据集混合使用了自动化工作流程和人工审核。数据集的选择优先考虑了被认为是说明性的和“教科书式”的内容,以帮助模型进行推理和逻辑演绎,最终提升其作为强大且通用的AI模型的能力。在模型架构方面,我们采用了修改后的Mistral分词器,以及Llama-2架构,以实现更广泛的兼容性。对于训练,我们采用了StableLM、TinyLlama和Huggingface Zephyr使用的方法。1.5-Pints表明,通过在LLM训练中关注数据质量而非数量,我们可以显著减少所需的训练时间和资源。我们相信这种方法不仅能使预训练更易于访问,还能减少我们的碳足迹。这项研究的发现和资源已开源,旨在促进该领域的进一步发展。1.5-Pints模型有两个版本:2K和16K上下文窗口。

🔬 方法详解

问题定义:论文旨在解决大规模语言模型预训练过程中计算资源消耗大、训练周期长的问题。现有方法通常依赖于海量数据,但数据质量参差不齐,导致训练效率低下,且难以获得理想的模型性能。

核心思路:论文的核心思路是“质量胜于数量”,即通过精心筛选和构建高质量的预训练数据集,使模型能够更有效地学习语言知识和推理能力,从而在更短的时间内达到更好的性能。这种方法旨在降低对计算资源的需求,并提高预训练的效率。

技术框架:整体框架包括数据收集与清洗、模型架构选择与修改、以及训练策略三个主要阶段。首先,通过自动化工作流和人工审核相结合的方式,构建高质量的预训练数据集。然后,采用Llama-2架构并修改Mistral分词器,以实现更好的兼容性。最后,采用StableLM、TinyLlama和Huggingface Zephyr的训练方法进行模型训练。

关键创新:最重要的技术创新点在于对预训练数据集的构建方式。论文强调了数据质量的重要性,并提出了一种结合自动化和人工审核的数据筛选方法,优先选择“教科书式”的、具有说明性的内容,以提高模型的推理和逻辑演绎能力。

关键设计:在数据方面,构建了包含570亿tokens的高质量数据集,并进行了人工审核。在模型架构方面,采用了Llama-2架构和修改后的Mistral分词器。在训练方面,采用了StableLM、TinyLlama和Huggingface Zephyr的训练方法。模型提供2K和16K两种上下文窗口版本。

📊 实验亮点

1.5-Pints模型仅用9天时间完成预训练,在MT-Bench基准测试中超越了Apple的OpenELM和Microsoft的Phi等先进模型。这一结果表明,通过关注数据质量而非数量,可以显著提高预训练的效率和模型性能。该模型有两个版本,分别支持2K和16K的上下文窗口。

🎯 应用场景

该研究成果可应用于各种需要语言理解和生成的场景,例如智能助手、文本摘要、机器翻译、代码生成等。通过降低预训练的成本和时间,可以加速语言模型在各个领域的应用,并促进AI技术的普及。此外,该研究强调的数据质量的重要性,对未来的语言模型研究具有重要的指导意义。

📄 摘要(原文)

This paper presents a compute-efficient approach to pre-training a Language Model-the "1.5-Pints"-in only 9 days, while outperforming state-of-the-art models as an instruction-following assistant.Based on MT-Bench (a benchmark that emulates human judgments), 1.5-Pints outperforms Apple's OpenELM and Microsoft's Phi.This is achieved by a carefully curated pre-training dataset of 57 billion tokens, using a mix of automated workflows and manual human review. The selection of the dataset prioritizes content that is considered expository and "textbook-like" to aid the model in reasoning and logical deduction, culminating in its overall ability as a strong and versatile AI model. In terms of the model architecture, we employed a modified Mistral tokenizer, alongside a Llama-2 architecture for wider compatibility. For training, we adopted the methodologies used by StableLM, TinyLlama, and Huggingface Zephyr. 1.5-Pints demonstrates that by focusing on data quality over quantity in LLM training, we can significantly reduce training time and resources required. We believe this approach will not only make pre-training more accessible but also reduce our carbon footprint. Our findings and resources from this research are open-sourced, aiming to facilitate further advancements in the field. The 1.5-Pints model is available in two versions: 2K and 16K context windows.