OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

作者: Shaobo Wang, Xuan Ouyang, Tianyi Xu, Yuzheng Hu, Jialin Liu, Guo Chen, Tianyu Zhang, Junhao Zheng, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang

分类: cs.CL

发布日期: 2026-02-05

备注: 45 pages, 7 figures, 8 tables

💡 一句话要点

OPUS：通过优化器引导的投影效用选择，实现大语言模型预训练的迭代式高效数据选择。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练 数据选择 优化器 数据效率 动态选择 效用函数

📋 核心要点

现有数据选择方法忽略训练动态或与优化器无关，导致预训练效率受限，无法充分利用高质量数据。
OPUS通过优化器引导的投影效用选择，在优化器更新空间中定义数据效用，动态选择更优数据。
实验表明，OPUS在多种设置下均优于现有方法，显著提升了预训练效率，尤其是在数据受限场景下。

📝 摘要（中文）

随着高质量公共文本数据接近耗尽，预训练正从增加token数量转向选择更优token，即面临“数据墙”问题。现有方法要么依赖于忽略训练动态的启发式静态过滤器，要么使用基于原始梯度的、与优化器无关的动态标准。我们提出了OPUS（Optimizer-induced Projected Utility Selection），一个动态数据选择框架，它在优化器引导的更新空间中定义效用。OPUS通过将候选数据的有效更新（由现代优化器塑造）投影到源自稳定、同分布代理的目标方向上来对候选数据进行评分。为了确保可扩展性，我们采用Ghost技术与CountSketch来实现计算效率，并采用Boltzmann抽样来保证数据多样性，仅产生4.7%的额外计算开销。OPUS在不同的语料库、质量层级、优化器和模型规模上取得了显著成果。在FineWeb和FineWeb-Edu上预训练GPT-2 Large/XL 30B tokens时，OPUS优于工业级基线，甚至超过了完整200B token的训练效果。此外，当与工业级静态过滤器结合使用时，OPUS进一步提高了预训练效率，即使使用较低质量的数据也是如此。更进一步，在SciencePedia上持续预训练Qwen3-8B-Base时，OPUS仅使用0.5B tokens就实现了优于完整3B tokens训练的性能，展示了在特定领域中显著的数据效率提升。

🔬 方法详解

问题定义：论文旨在解决大语言模型预训练过程中数据选择效率低下的问题。现有方法，如静态过滤或基于原始梯度的动态选择，要么忽略了训练过程中的动态变化，要么没有充分考虑优化器的影响，导致数据利用率不高，预训练成本增加。

核心思路：OPUS的核心思路是在优化器引导的更新空间中定义数据的效用。这意味着数据的重要性不是由其原始梯度决定，而是由它在优化器作用下产生的实际更新方向和幅度决定。通过将数据的更新投影到一个代表理想训练方向的目标向量上，可以更准确地评估数据的价值。

技术框架：OPUS框架包含以下几个主要步骤：1) 使用一个稳定、同分布的代理数据集来确定目标更新方向。2) 对于每个候选数据样本，计算其在当前优化器下的有效更新。3) 将候选数据的更新投影到目标更新方向上，得到一个效用分数。4) 使用Boltzmann抽样根据效用分数选择数据，以保证数据多样性。为了提高计算效率，采用了Ghost技术和CountSketch算法。

关键创新：OPUS的关键创新在于将优化器纳入数据选择的考量范围。传统的动态数据选择方法通常只关注原始梯度，而忽略了优化器对梯度的修正作用。OPUS通过分析优化器如何塑造数据的更新，从而更准确地评估数据的价值。此外，OPUS还采用了高效的计算技术，使其能够在大规模数据集上进行数据选择。

关键设计：OPUS的关键设计包括：1) 目标更新方向的确定：使用一个小的、高质量的代理数据集，通过训练得到一个稳定的更新方向。2) 效用分数的计算：将候选数据的更新投影到目标更新方向上，投影长度作为效用分数。3) 数据多样性保证：使用Boltzmann抽样，根据效用分数对数据进行抽样，避免过度选择相似的数据。4) 计算效率优化：使用Ghost技术和CountSketch算法来降低计算复杂度。

🖼️ 关键图片

📊 实验亮点

OPUS在GPT-2 Large/XL的预训练中，仅使用30B tokens就超越了工业级基线，甚至达到了完整200B tokens的训练效果。在Qwen3-8B-Base的持续预训练中，OPUS仅使用0.5B tokens就优于完整3B tokens的训练结果，显著提升了数据效率。此外，OPUS与工业级静态过滤器结合使用时，能够进一步提高预训练效率，即使在较低质量的数据集上也能取得良好效果。

🎯 应用场景

OPUS可应用于各种大语言模型的预训练场景，尤其是在高质量数据稀缺或计算资源有限的情况下。它可以帮助研究人员和工程师更有效地利用现有数据，降低预训练成本，并提升模型性能。此外，OPUS还可以应用于特定领域的模型训练，例如科学、医学等，通过选择与领域相关的高价值数据，提高模型在特定任务上的表现。

📄 摘要（原文）

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理