Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
作者: Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu
分类: cs.AI, cs.CL
发布日期: 2026-02-08
💡 一句话要点
提出Data Darwinism框架,利用高质量科学数据预训练提升大模型性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据质量 预训练模型 科学文献 数据增强 协同进化 大型语言模型 知识补全
📋 核心要点
- 现有方法缺乏系统性的数据处理框架,无法充分挖掘科学数据的价值,限制了基础模型的性能提升。
- 提出Data Darwinism框架,通过数据-模型协同进化,利用先进模型生成更优质的数据,弥合原始科学文本的可学习性差距。
- 实验表明,使用Darwin-Science语料库预训练的模型在多个基准测试中显著优于基线模型,尤其在领域对齐的任务上提升明显。
📝 摘要(中文)
数据质量决定了基础模型的性能,但目前缺乏系统的处理框架。本文提出了Data Darwinism,一个十层分类体系(L0-L9),将数据-模型协同进化概念化:更先进的模型为下一代系统产生更优质的数据。通过构建一个900B token的Darwin-Science语料库(L0-L5)在科学文献上验证了该理论。我们发现原始科学文本存在可学习性差距,并通过L4(生成式精炼)和L5(认知补全)使用前沿LLM来阐明推理和术语来弥合这一差距。为了确保严格的归属,我们从头开始预训练了daVinci-origin-3B/7B模型,排除了科学内容以创建无污染的基线。经过600B token的持续预训练后,Darwin-Science在20多个基准测试中优于基线+2.12(3B)和+2.95(7B)个点,在领域对齐的任务上分别提升至+5.60和+8.40个点。系统地推进到L5产生了+1.36的总收益,证实了更高层次的处理释放了潜在的数据价值。我们发布了Darwin-Science语料库和daVinci-origin模型,以实现有原则的协同进化开发。
🔬 方法详解
问题定义:论文旨在解决科学领域预训练数据质量不高的问题。现有方法直接使用原始科学文本,忽略了其中存在的可学习性差距,例如缺乏明确的推理过程和专业术语解释,导致预训练模型性能受限。
核心思路:论文的核心思路是Data Darwinism,即数据和模型协同进化。通过迭代地使用更强大的模型来处理和增强数据,生成更高质量的训练数据,从而进一步提升模型的性能。这种方法类似于生物进化中的自然选择,优胜劣汰,最终产生更适应环境的模型。
技术框架:整体框架包含以下几个主要阶段:1) 构建Darwin-Science语料库,包含L0-L5级别的数据。2) 使用L4(生成式精炼)和L5(认知补全)技术,利用大型语言模型对原始科学文本进行处理,例如通过生成式精炼来补充推理过程,通过认知补全来解释专业术语。3) 从头开始预训练daVinci-origin-3B/7B模型,并使用Darwin-Science语料库进行持续预训练。4) 在多个基准测试上评估模型性能。
关键创新:论文的关键创新在于提出了Data Darwinism框架,并将其应用于科学领域。通过定义数据的不同层次(L0-L9),并利用大型语言模型进行数据增强,显著提升了预训练模型的性能。此外,论文还构建了高质量的Darwin-Science语料库,并发布了预训练模型,为后续研究提供了基础。
关键设计:L4(生成式精炼)使用LLM生成更详细的推理过程,弥补原始文本的跳跃性。L5(认知补全)则利用LLM解释专业术语,降低学习门槛。daVinci-origin模型从头训练,确保没有科学数据污染,作为公平的基线。实验中,模型持续预训练600B tokens,保证充分学习。
📊 实验亮点
实验结果表明,使用Darwin-Science语料库预训练的daVinci-origin-3B/7B模型在20多个基准测试中显著优于基线模型,分别提升了+2.12和+2.95个点。在领域对齐的任务上,提升幅度更大,分别达到了+5.60和+8.40个点。系统地推进到L5级别的数据处理,带来了+1.36的总收益,验证了Data Darwinism框架的有效性。
🎯 应用场景
该研究成果可应用于各种科学领域的预训练模型开发,提升模型在科学文献理解、科学问题解答等任务上的性能。通过Data Darwinism框架,可以系统性地提升数据质量,降低模型训练成本,加速科学研究的进展。未来,该方法还可以扩展到其他领域,例如医疗、金融等。
📄 摘要(原文)
Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.