Datasets, Documents, and Repetitions: The Practicalities of Unequal Data Quality

作者: Alex Fang, Hadi Pouransari, Matt Jordan, Alexander Toshev, Vaishaal Shankar, Ludwig Schmidt, Tom Gunter

分类: cs.CL, cs.LG

发布日期: 2025-03-10 (更新: 2025-11-06)

💡 一句话要点

通过重复利用高质量过滤数据集，提升大语言模型在有限计算资源下的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数据过滤 数据重复 大语言模型 预训练 计算效率

📋 核心要点

现有大语言模型训练依赖大规模数据集，但高质量过滤数据集的规模有限，成为模型性能瓶颈。
论文核心思想是，通过多次重复利用高质量过滤数据集，在有限计算资源下提升模型性能。
实验表明，重复利用过滤数据集训练多个epoch，优于在更大的未过滤数据集上训练单个epoch。

📝 摘要（中文）

数据过滤已成为提高模型性能和降低计算成本的有效工具。然而，随着大型语言模型计算预算的持续增长，经过严格过滤和去重的数据集所提供的有限数据量将成为一个实际的约束。为了更好地理解如何应对这一问题，我们研究了模型在不同计算预算下，以及在通过数据过滤和去重创建的多个预训练数据集上的性能。我们发现，在对训练方案进行适当修改后，重复使用现有经过严格过滤的数据集最多十个epoch，可以优于在十倍大的超集上训练单个epoch的性能，且这种优势在多个数量级的计算预算下都成立。虽然这一发现依赖于多次重复数据集，但我们也研究了这些数据集中文档级别的重复。我们发现，数据集中的并非所有文档都是平等的，通过显式地操纵单个文档的计数，我们可以创建相对于token预算而言更好的数据集。最后，我们认为即使大型语言模型不断扩展，数据过滤仍然是一个重要的研究方向。

🔬 方法详解

问题定义：现有大语言模型训练依赖于海量数据，但高质量的数据往往经过严格的过滤和去重，导致数据量受限。当计算资源有限时，如何在有限的数据集上训练出高性能的模型是一个关键问题。现有方法通常倾向于扩大数据集规模，但忽略了数据集质量和重复利用的潜力。

核心思路：论文的核心思路是，与其盲目追求更大的数据集，不如更有效地利用现有的高质量数据集。通过多次重复训练（多个epoch），让模型充分学习数据集中的信息，从而在有限的计算资源下达到更好的性能。此外，论文还关注数据集内部文档的重要性差异，通过调整文档的重复次数来优化数据集。

技术框架：论文主要通过实验来验证其核心思路。具体而言，研究人员在不同的计算预算下，比较了以下几种训练策略：1) 在大型未过滤数据集上训练单个epoch；2) 在小型过滤数据集上训练多个epoch；3) 通过调整数据集中不同文档的重复次数来优化数据集。研究人员使用了多种预训练数据集，并评估了模型在下游任务上的性能。

关键创新：论文的关键创新在于，它挑战了“数据越多越好”的传统观念，强调了数据质量和重复利用的重要性。论文证明，在计算资源有限的情况下，通过多次重复利用高质量过滤数据集，可以获得比使用更大的未过滤数据集更好的性能。此外，论文还提出了通过调整数据集中不同文档的重复次数来优化数据集的方法，进一步提升了模型性能。

关键设计：论文的关键设计包括：1) 仔细选择和过滤数据集，确保数据质量；2) 设计合理的训练方案，包括学习率、batch size等超参数；3) 精心设计实验，比较不同训练策略的性能；4) 分析数据集内部文档的重要性差异，并设计相应的优化算法。论文没有特别强调特定的网络结构或损失函数，而是侧重于数据处理和训练策略的优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在多个数量级的计算预算下，重复使用现有经过严格过滤的数据集最多十个epoch，可以优于在十倍大的超集上训练单个epoch的性能。此外，通过调整数据集中不同文档的重复次数，可以进一步提升模型性能，表明并非所有文档都同等重要。

🎯 应用场景

该研究成果可应用于各种需要训练大型语言模型的场景，尤其是在计算资源受限的情况下。例如，在边缘设备上部署大语言模型，或在预算有限的科研项目中训练模型。通过重复利用高质量数据集，可以降低训练成本，提高模型性能，加速大语言模型在各个领域的应用。

📄 摘要（原文）

Data filtering has become a powerful tool for improving model performance while reducing computational cost. However, as large language model compute budgets continue to grow, the limited data volume provided by heavily filtered and deduplicated datasets will become a practical constraint. In efforts to better understand how to proceed, we study model performance at various compute budgets and across multiple pre-training datasets created through data filtering and deduplication. We find that, given appropriate modifications to the training recipe, repeating existing aggressively filtered datasets for up to ten epochs can outperform training on the ten times larger superset for a single epoch across multiple compute budget orders of magnitude. While this finding relies on repeating the dataset for many epochs, we also investigate repeats within these datasets at the document level. We find that not all documents within a dataset are equal, and we can create better datasets relative to a token budget by explicitly manipulating the counts of individual documents. We conclude by arguing that even as large language models scale, data filtering remains an important direction of research.

Datasets, Documents, and Repetitions: The Practicalities of Unequal Data Quality

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理