How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data

📄 arXiv: 2604.13977v1 📥 PDF

作者: Joel Niklaus, Atsuki Yamaguchi, Michal Štefánik, Guilherme Penedo, Hynek Kydlíček, Elie Bakouch, Lewis Tunstall, Edward Emanuel Beeching, Thibaud Frere, Colin Raffel, Leandro von Werra, Thomas Wolf

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-15


💡 一句话要点

系统性研究提示词设计、生成模型与源数据对合成预训练数据质量的影响,并提出FinePhrase数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成数据 预训练 提示词工程 数据生成 自然语言处理

📋 核心要点

  1. 现有合成数据生成方法缺乏对提示词设计、生成模型和源数据等关键因素的系统性比较。
  2. 论文提出通过控制变量实验,探索不同因素对合成数据质量的影响,并发现结构化输出格式的优势。
  3. 实验结果表明,FinePhrase数据集在性能上优于现有合成数据基线,并显著降低了生成成本。

📝 摘要(中文)

合成数据是训练大型语言模型的标准组成部分,但对设计维度(包括复述策略、生成模型和源数据)的系统性比较仍然缺失。我们进行了广泛的受控实验,生成超过一万亿个token,以确定将Web文本复述为合成预训练数据的关键因素。结果表明,结构化输出格式(如表格、数学问题、FAQ和教程)始终优于精心策划的Web基线和先前的合成方法。值得注意的是,将生成模型的大小增加到超过10亿个参数并没有带来额外的好处。我们的分析还表明,用于混合的原始数据的选择对性能有很大影响。通过应用我们的发现,我们开发了 extbf{ extsc{FinePhrase}},一个包含4860亿token的开放复述Web文本数据集。我们表明, extsc{FinePhrase}优于所有现有的合成数据基线,同时将生成成本降低高达30倍。我们向研究社区提供数据集、所有提示和生成框架。

🔬 方法详解

问题定义:论文旨在解决如何高效生成高质量合成预训练数据的问题。现有方法缺乏对生成过程关键因素的系统性研究,导致合成数据质量参差不齐,且生成成本较高。

核心思路:论文的核心思路是通过系统性的实验,探究提示词设计、生成模型和源数据对合成数据质量的影响。通过对比不同策略的效果,找到最优的生成方案,从而提高合成数据的质量和效率。

技术框架:论文的技术框架主要包括三个部分:1) 提示词设计:探索不同类型的提示词,包括结构化输出格式和自由文本格式;2) 生成模型选择:对比不同大小的生成模型,评估模型规模对合成数据质量的影响;3) 源数据选择:分析不同来源的数据对合成数据质量的影响。最终,基于实验结果,构建高质量的合成数据集FinePhrase。

关键创新:论文的关键创新在于对合成数据生成过程进行了系统性的研究,揭示了结构化输出格式在提高合成数据质量方面的优势。此外,论文还发现,增大生成模型规模并不一定能带来性能提升,这为后续研究提供了重要的参考。

关键设计:论文的关键设计包括:1) 采用多种结构化输出格式,如表格、数学问题、FAQ和教程;2) 对比不同大小的生成模型,包括小于1B参数和大于1B参数的模型;3) 精心选择源数据,并分析其对合成数据质量的影响;4) 通过大规模实验,验证不同策略的效果,并最终构建高质量的FinePhrase数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用结构化输出格式生成的合成数据优于现有方法,FinePhrase数据集在性能上超越了所有现有合成数据基线,并且将生成成本降低了高达30倍。此外,研究发现,将生成模型的大小增加到超过1B参数并没有带来额外的好处。

🎯 应用场景

该研究成果可应用于各种需要大规模预训练数据的自然语言处理任务,例如文本生成、机器翻译、问答系统等。高质量的合成数据可以降低对大规模真实数据的依赖,从而降低训练成本,并提高模型的泛化能力。FinePhrase数据集的开源发布,将促进相关领域的研究和发展。

📄 摘要(原文)

Synthetic data is a standard component in training large language models, yet systematic comparisons across design dimensions, including rephrasing strategy, generator model, and source data, remain absent. We conduct extensive controlled experiments, generating over one trillion tokens, to identify critical factors in rephrasing web text into synthetic pretraining data. Our results reveal that structured output formats, such as tables, math problems, FAQs, and tutorials, consistently outperform both curated web baselines and prior synthetic methods. Notably, increasing the size of the generator model beyond 1B parameters provides no additional benefit. Our analysis also demonstrates that the selection of the original data used for mixing substantially influences performance. By applying our findings, we develop \textbf{\textsc{FinePhrase}}, a 486-billion-token open dataset of rephrased web text. We show that \textsc{FinePhrase} outperforms all existing synthetic data baselines while reducing generation costs by up to 30 times. We provide the dataset, all prompts, and the generation framework to the research community.