DataDecide: How to Predict Best Pretraining Data with Small Experiments

作者: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge

分类: cs.LG, cs.CL

发布日期: 2025-04-15 (更新: 2025-07-13)

备注: ICML 2025

💡 一句话要点

DataDecide：通过小规模实验预测最佳预训练数据，降低大模型训练成本

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 预训练数据选择 小规模实验 大规模模型预测 缩放定律 计算效率

📋 核心要点

现有大型语言模型预训练成本高昂，难以在不同数据集上进行充分实验，选择合适的预训练数据成为关键挑战。
DataDecide提出通过小规模实验预测大规模预训练的最佳数据集，旨在降低计算成本并提高模型性能。
实验结果表明，小规模模型排名是预测大规模模型性能的有效基线，且连续似然度量可作为小规模实验的代理指标。

📝 摘要（中文）

由于大型语言模型在不同数据集上进行预训练的成本高昂，因此使用小规模实验来决定数据对于降低成本至关重要。本文旨在研究哪些基准和决策方法能够从小规模性能观察中准确预测出产生最佳大型模型的数据集。为了促进对这个问题的开放探索，我们发布了DataDecide，这是一个最广泛的开放模型套件，涵盖了数据和规模的差异。我们进行了受控的预训练实验，跨越25个语料库，这些语料库在来源、去重和过滤方面各不相同，规模高达100B tokens，模型大小高达1B参数，并使用了3个随机种子。我们发现，在单个小规模尺寸（例如，150M参数）下模型的排名是预测较大目标规模（1B）下最佳模型的有力基线（约80%的比较正确）。在8个基线中，没有缩放定律方法超过单尺度预测的计算决策边界，但DataDecide可以衡量未来缩放定律的改进。我们还发现，在小型实验中使用连续似然度量作为代理，可以使包括MMLU、ARC、HellaSwag、MBPP和HumanEval在内的基准在目标1B规模下具有>80%的可预测性，而计算量仅为0.01%。

🔬 方法详解

问题定义：论文旨在解决的问题是如何在有限的计算资源下，高效地选择最适合大型语言模型预训练的数据集。现有方法通常依赖于大规模的预训练实验，成本高昂，或者使用简单的启发式方法，效果不佳。因此，如何在小规模实验中准确预测大规模预训练的效果，成为了一个重要的研究问题。

核心思路：论文的核心思路是利用小规模模型在不同数据集上的表现，来预测大规模模型在相同数据集上的表现。具体来说，论文研究了不同的小规模实验设置（例如，模型大小、训练tokens数量）和不同的性能指标（例如，验证集损失、下游任务性能）对预测准确性的影响。论文假设，如果一个小规模模型在一个数据集上表现良好，那么一个大规模模型在相同数据集上也会表现良好。

技术框架：DataDecide框架包含以下几个主要组成部分：1) 数据集集合：包含25个不同的语料库，涵盖了不同的来源、去重和过滤方法。2) 模型集合：包含不同大小的语言模型，从150M参数到1B参数不等。3) 实验流程：在不同的数据集上预训练不同大小的模型，并记录模型的性能指标。4) 评估方法：使用不同的评估指标来衡量小规模实验预测大规模预训练效果的准确性。

关键创新：论文的关键创新在于提出了一个系统性的框架，用于研究如何从小规模实验中预测大规模预训练的效果。论文通过大量的实验，验证了小规模模型排名是预测大规模模型性能的有效基线，并发现连续似然度量可以作为小规模实验的代理指标。此外，论文还发布了DataDecide数据集，为未来的研究提供了便利。

关键设计：论文的关键设计包括：1) 数据集的选择：选择了25个不同的语料库，以涵盖不同的数据特征。2) 模型大小的选择：选择了不同大小的模型，以研究模型大小对预测准确性的影响。3) 性能指标的选择：选择了不同的性能指标，包括验证集损失和下游任务性能，以研究不同指标对预测准确性的影响。4) 评估方法的设计：设计了不同的评估指标，以衡量小规模实验预测大规模预训练效果的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在单个小规模尺寸（如150M参数）下模型的排名是预测较大目标规模（1B参数）下最佳模型的有力基线，准确率约为80%。此外，使用连续似然度量作为代理指标，可以在仅使用0.01%的计算量的情况下，以>80%的准确率预测MMLU、ARC、HellaSwag、MBPP和HumanEval等基准在1B规模下的性能。

🎯 应用场景

该研究成果可应用于大型语言模型的预训练阶段，帮助研究人员和工程师在有限的计算资源下，选择最佳的预训练数据集，从而降低训练成本，提高模型性能。此外，该研究还可以应用于其他机器学习模型的训练数据选择，具有广泛的应用前景。

📄 摘要（原文）

Because large language models are expensive to pretrain on different datasets, using smaller-scale experiments to decide on data is crucial for reducing costs. Which benchmarks and methods of making decisions from observed performance at small scale most accurately predict the datasets that yield the best large models? To empower open exploration of this question, we release models, data, and evaluations in DataDecide -- the most extensive open suite of models over differences in data and scale. We conduct controlled pretraining experiments across 25 corpora with differing sources, deduplication, and filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random seeds. We find that the ranking of models at a single, small size (e.g., 150M parameters) is a strong baseline for predicting best models at our larger target scale (1B) (~80% of com parisons correct). No scaling law methods among 8 baselines exceed the compute-decision frontier of single-scale predictions, but DataDecide can measure improvement in future scaling laws. We also identify that using continuous likelihood metrics as proxies in small experiments makes benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable at the target 1B scale with just 0.01% of the compute.

DataDecide: How to Predict Best Pretraining Data with Small Experiments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理