BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

📄 arXiv: 2508.10975v2 📥 PDF

作者: DatologyAI, :, Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

分类: cs.LG, cs.CL

发布日期: 2025-08-14 (更新: 2025-08-19)

备注: Blog version can be viewed at: http://blog.datologyai.com/beyondweb


💡 一句话要点

BeyondWeb:通过扩展合成数据,实现万亿级预训练的经验总结。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成数据 预训练 大型语言模型 数据生成 数据质量

📋 核心要点

  1. 现有大型语言模型预训练面临数据量瓶颈,单纯增加数据规模收益递减,需要探索新的数据来源。
  2. BeyondWeb框架旨在生成高质量合成数据,通过优化数据生成流程,显著提升预训练模型的性能。
  3. 实验表明,BeyondWeb在训练速度和模型性能上均优于现有合成数据集,证明了其有效性。

📝 摘要(中文)

大型语言模型(LLM)预训练的最新进展表明,单纯地扩展数据量最终会导致收益递减,触及数据瓶颈。为此,使用合成数据进行预训练已成为推动性能前沿的一种有前景的范例。尽管如此,影响合成数据质量的因素仍然知之甚少。本文介绍了一个合成数据生成框架BeyondWeb,该框架可以生成用于预训练的高质量合成数据。BeyondWeb显著扩展了传统网络规模数据集的能力,在一组14个基准评估中,平均优于最先进的合成预训练数据集,例如Cosmopedia和Nemotron-CC的高质量合成子集(Nemotron-Synth),分别高达5.1个百分点(pp)和2.6个百分点(pp)。与开放网络数据相比,它的训练速度提高了7.7倍,与Nemotron-Synth相比,训练速度提高了2.7倍。值得注意的是,在BeyondWeb上训练了1800亿个token的3B模型,其性能优于在Cosmopedia上训练了相同token预算的8B模型。我们还介绍了BeyondWeb关于合成数据预训练的一些见解:是什么驱动了它的优势,应该重新措辞哪些数据以及如何重新措辞,以及模型大小和系列对数据质量的影响。总的来说,我们的工作表明,没有生成高质量合成预训练数据的万能方法。最好的结果需要共同优化许多因素,这是一项具有挑战性的任务,需要严谨的科学和实践专业知识。幼稚的方法可能会产生适度的改进,但可能会付出巨大的代价,而执行良好的方法可以产生变革性的改进,正如BeyondWeb所例证的那样。

🔬 方法详解

问题定义:现有的大型语言模型预训练方法在达到一定规模后,单纯增加数据量带来的性能提升会逐渐减小,即遇到了“数据墙”问题。同时,现有的合成数据质量参差不齐,如何生成高质量的合成数据成为一个挑战。

核心思路:BeyondWeb的核心思路是通过精细化地控制合成数据的生成过程,优化数据选择、重述策略以及模型参数等多个因素,从而生成高质量的合成数据,以突破数据瓶颈,提升预训练模型的性能。

技术框架:BeyondWeb框架包含数据选择、数据重述、数据过滤等多个模块。首先,从现有数据集中选择适合重述的数据;然后,使用特定的重述策略对数据进行改写,生成新的合成数据;最后,通过过滤机制去除低质量的合成数据,保证数据集的整体质量。

关键创新:BeyondWeb的关键创新在于其对合成数据生成过程的全面优化。它不仅仅关注数据的数量,更注重数据的质量和多样性,通过精细化的控制,使得合成数据能够更好地服务于预训练任务。

关键设计:BeyondWeb的关键设计包括:1) 数据选择策略,选择信息量大、多样性高的原始数据;2) 数据重述策略,采用多种重述方法,增加数据的多样性;3) 数据过滤策略,使用模型评估和人工评估相结合的方式,去除低质量的合成数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BeyondWeb在14个基准测试中,平均优于Cosmopedia和Nemotron-Synth分别高达5.1和2.6个百分点。使用BeyondWeb训练的3B模型,在相同token预算下,性能优于使用Cosmopedia训练的8B模型。同时,BeyondWeb的训练速度也显著提升,比开放网络数据快7.7倍,比Nemotron-Synth快2.7倍。

🎯 应用场景

BeyondWeb框架生成的合成数据可用于各种大型语言模型的预训练,尤其是在数据资源有限的情况下,可以显著提升模型的性能。该研究成果对于自然语言处理、机器翻译、文本生成等领域具有重要的应用价值,并有望推动人工智能技术的进一步发展。

📄 摘要(原文)

Recent advances in large language model (LLM) pretraining have shown that simply scaling data quantity eventually leads to diminishing returns, hitting a data wall. In response, the use of synthetic data for pretraining has emerged as a promising paradigm for pushing the frontier of performance. Despite this, the factors affecting synthetic data quality remain poorly understood. In this work, we introduce BeyondWeb, a synthetic data generation framework that produces high-quality synthetic data for pretraining. BeyondWeb significantly extends the capabilities of traditional web-scale datasets, outperforming state-of-the-art synthetic pretraining datasets such as Cosmopedia and Nemotron-CC's high-quality synthetic subset (Nemotron-Synth) by up to 5.1 percentage points (pp) and 2.6pp, respectively, when averaged across a suite of 14 benchmark evaluations. It delivers up to 7.7x faster training than open web data and 2.7x faster than Nemotron-Synth. Remarkably, a 3B model trained for 180B tokens on BeyondWeb outperforms an 8B model trained for the same token budget on Cosmopedia. We also present several insights from BeyondWeb on synthetic data for pretraining: what drives its benefits, which data to rephrase and how, and the impact of model size and family on data quality. Overall, our work shows that there's no silver bullet for generating high-quality synthetic pretraining data. The best outcomes require jointly optimizing many factors, a challenging task that requires rigorous science and practical expertise. Naive approaches can yield modest improvements, potentially at great cost, while well-executed methods can yield transformative improvements, as exemplified by BeyondWeb.