The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

📄 arXiv: 2406.17557v2 📥 PDF

作者: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf

分类: cs.CL

发布日期: 2024-06-25 (更新: 2024-10-31)


💡 一句话要点

提出FineWeb数据集,提升大规模语言模型预训练数据质量与性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大规模语言模型 预训练数据集 数据清洗 数据去重 Common Crawl 教育数据集 知识推理

📋 核心要点

  1. 现有开放LLM的预训练数据集信息匮乏,阻碍了对高质量数据构建方法的理解。
  2. FineWeb通过精细的数据选择、去重和过滤策略,构建高质量大规模预训练数据集。
  3. FineWeb及其教育子集FineWeb-Edu,显著提升了LLM在知识推理等任务上的性能。

📝 摘要(中文)

本文介绍了FineWeb,一个包含15万亿token的数据集,它由96个Common Crawl快照派生而来,并且能够训练出比其他开放预训练数据集性能更优的大型语言模型(LLM)。为了深入理解如何更好地构建高质量的预训练数据集,本文详细记录并分析了FineWeb中使用的所有设计选择,包括对去重和过滤策略的深入研究。此外,本文还介绍了FineWeb-Edu,一个包含1.3万亿token的教育文本集合,它从FineWeb中过滤而来。基于FineWeb-Edu预训练的LLM在知识和推理密集型基准测试(如MMLU和ARC)上表现出显著更好的性能。除了数据集,本文还公开发布了数据整理代码库以及在消融实验中训练的所有模型。

🔬 方法详解

问题定义:当前先进的开放大型语言模型(LLM)的预训练数据集并未公开,对其创建过程知之甚少。这使得研究人员难以理解如何构建高质量的预训练数据集,从而限制了LLM性能的进一步提升。现有方法缺乏对数据选择、清洗和去重的系统性研究,导致预训练数据集中可能包含大量噪声和冗余信息,影响模型训练效果。

核心思路:本文的核心思路是通过精心设计的数据选择、过滤和去重策略,从Common Crawl数据中提取高质量的文本数据,构建一个大规模的预训练数据集FineWeb。通过对不同设计选择进行消融实验,深入理解各种策略对LLM性能的影响,从而为构建更好的预训练数据集提供指导。

技术框架:FineWeb的构建流程主要包括以下几个阶段:1) 数据获取:从96个Common Crawl快照中获取原始文本数据。2) 数据过滤:应用一系列过滤规则,例如基于语言、质量和内容类型的过滤,去除低质量和不相关的数据。3) 数据去重:采用多种去重策略,包括精确去重和模糊去重,去除数据集中的冗余信息。4) 数据集划分:将过滤和去重后的数据划分为FineWeb和FineWeb-Edu两个数据集,其中FineWeb-Edu是FineWeb的教育子集。

关键创新:本文的关键创新在于对预训练数据集构建过程的系统性研究和详细记录。通过消融实验,深入分析了不同数据选择、过滤和去重策略对LLM性能的影响,为构建高质量预训练数据集提供了经验证据。此外,FineWeb-Edu数据集的构建也展示了针对特定领域(教育)优化预训练数据的有效性。

关键设计:在数据过滤方面,本文采用了多种基于规则和模型的过滤方法,例如基于语言模型的困惑度过滤和基于分类器的内容类型过滤。在数据去重方面,本文采用了精确去重和模糊去重两种策略,其中模糊去重使用了MinHash算法来检测相似的文档。此外,本文还对不同过滤和去重策略的参数进行了精细调整,以达到最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

基于FineWeb预训练的LLM在多个基准测试中取得了显著的性能提升。例如,在MMLU和ARC等知识和推理密集型基准测试中,基于FineWeb-Edu预训练的LLM表现出大幅优于其他开放数据集预训练模型的性能。此外,消融实验结果表明,精细的数据过滤和去重策略对LLM的性能至关重要。

🎯 应用场景

FineWeb数据集及其构建方法可广泛应用于大规模语言模型的预训练,尤其是在需要高质量数据和特定领域知识的任务中。例如,可以利用FineWeb-Edu数据集训练在教育领域表现更优的LLM,用于智能辅导、知识问答等应用。该研究也为其他研究者构建高质量预训练数据集提供了参考。

📄 摘要(原文)

The performance of a large language model (LLM) depends heavily on the quality and size of its pretraining dataset. However, the pretraining datasets for state-of-the-art open LLMs like Llama 3 and Mixtral are not publicly available and very little is known about how they were created. In this work, we introduce FineWeb, a 15-trillion token dataset derived from 96 Common Crawl snapshots that produces better-performing LLMs than other open pretraining datasets. To advance the understanding of how best to curate high-quality pretraining datasets, we carefully document and ablate all of the design choices used in FineWeb, including in-depth investigations of deduplication and filtering strategies. In addition, we introduce FineWeb-Edu, a 1.3-trillion token collection of educational text filtered from FineWeb. LLMs pretrained on FineWeb-Edu exhibit dramatically better performance on knowledge- and reasoning-intensive benchmarks like MMLU and ARC. Along with our datasets, we publicly release our data curation codebase and all of the models trained during our ablation experiments.