ArXiv-to-Model: A Practical Study of Scientific LM Training

📄 arXiv: 2602.17288v1 📥 PDF

作者: Anuj Gupta

分类: cs.AI, cs.CL

发布日期: 2026-02-19

备注: 15 pages, 6 figures, 1 table


💡 一句话要点

针对科学领域,提出一种基于ArXiv LaTeX源码训练领域语言模型的实践方案。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学语言模型 领域专用模型 LaTeX处理 Transformer训练 数据预处理 分词策略 arXiv

📋 核心要点

  1. 现有大型语言模型在推理和数学能力方面表现出色,但从原始数据训练领域专用科学语言模型的实践过程缺乏详细记录。
  2. 本文提出了一种端到端的流程,包括数据预处理、领域感知分词和Transformer训练,旨在解决科学语言模型训练中的实际问题。
  3. 通过实验分析了训练过程中的稳定性、数据损失和基础设施瓶颈,并强调了预处理和分词对模型性能的关键影响。

📝 摘要(中文)

本文详细研究了如何从原始arXiv LaTeX源码训练领域专用科学语言模型,特别是针对数学、计算机科学和理论物理领域。作者构建了一个完整的流程,包括元数据过滤、档案验证、LaTeX提取、文本规范化、领域感知分词以及在有限计算资源(2xA100 GPU)下的密集Transformer训练。通过24次实验,分析了训练稳定性、缩放行为、数据损失以及基础设施瓶颈。研究结果表明,预处理决策显著影响可用token数量,分词影响符号稳定性,存储和I/O约束可能与计算资源一样成为限制因素。进一步分析了收敛动态,并在数据丰富的状态下(52B预训练token)展示了稳定的训练行为。本文旨在提供一个基于工程实践、透明的、从零开始训练小型科学语言模型的案例,而非提出新的架构,希望能为在有限计算预算下构建领域专用模型的研究人员提供支持。

🔬 方法详解

问题定义:现有方法缺乏从原始科学文献(如arXiv LaTeX源码)训练领域专用语言模型的详细实践指导。痛点在于数据预处理流程复杂、计算资源有限、训练过程不稳定,且缺乏对数据质量和分词策略影响的深入理解。

核心思路:本文的核心思路是通过一个完整的端到端流程,从原始arXiv LaTeX源码出发,构建一个可行的科学语言模型训练方案。通过详细的实验分析,揭示数据预处理、分词策略和训练过程中的关键因素,为资源受限的研究人员提供实践指导。

技术框架:整体流程包括以下几个主要阶段:1) 元数据过滤:根据领域选择合适的arXiv文章。2) 档案验证:确保LaTeX源码的完整性和可解析性。3) LaTeX提取:从源码中提取文本内容。4) 文本规范化:清理和标准化文本,例如去除多余空格和特殊字符。5) 领域感知分词:使用针对科学领域的词汇表进行分词。6) 密集Transformer训练:使用Transformer模型进行预训练。

关键创新:本文的创新点在于提供了一个完整的、可复现的科学语言模型训练流程,并深入分析了各个阶段的关键因素。与现有方法相比,本文更注重工程实践和细节,强调了数据质量、分词策略和计算资源对模型性能的影响。

关键设计:在数据预处理阶段,作者详细描述了LaTeX提取和文本规范化的具体方法。在分词阶段,采用了领域感知的词汇表,以更好地处理科学领域的特殊符号和公式。在训练阶段,使用了1.36B参数的Transformer模型,并在2xA100 GPU上进行了训练。损失函数为标准的交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,数据预处理对可用token数量有显著影响,领域感知分词能提高符号稳定性。在52B token的数据集上,模型训练表现出稳定的收敛行为。此外,研究还发现存储和I/O速度可能成为训练瓶颈,与计算资源同等重要。

🎯 应用场景

该研究成果可应用于构建各种科学领域的专用语言模型,例如数学、计算机科学和物理学。这些模型可以用于辅助科学研究,例如自动生成论文摘要、公式推导、代码生成等,提高科研效率。此外,该研究也为其他领域的语言模型训练提供了实践参考。

📄 摘要(原文)

While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.