From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models

📄 arXiv: 2407.00900v3 📥 PDF

作者: Shubhra Mishra, Gabriel Poesia, Noah D. Goodman

分类: cs.AI, cs.CL

发布日期: 2024-07-01 (更新: 2025-10-14)

备注: Accepted to COLM 2025. Dataset and code: https://github.com/gpoesia/mathcamps/

期刊: Conference on Language Modeling (COLM), Montreal, Canada, October 7-10, 2025


💡 一句话要点

分析LLM数学推理能力演变,揭示预训练与指令调优的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 预训练 指令调优 学习动态 数据集构建 教育应用

📋 核心要点

  1. 现有研究缺乏对LLM数学推理能力在训练过程中如何演变的深入理解。
  2. 论文通过构建MathCAMPS数据集,并分析LLM在预训练和指令调优阶段的学习动态,揭示了数学技能的习得规律。
  3. 实验表明,预训练阶段数学技能的学习顺序与人类课程相关,并分析了指令调优对不同数学技能的影响。

📝 摘要(中文)

大型语言模型(LLM)仅通过下一个token预测训练,就能解决涉及数学推理的各种问题。本文首次分析了多个开源LLM在预训练和后训练过程中数学推理能力的演变。为此,作者构建了MathCAMPS,这是一个合成数据集,包含基于K到8年级通用核心课程中44个细粒度技能的新型数学推理问题。实验表明,预训练期间数学技能的学习顺序与人类设计的课程显著相关,即使训练数据是随机排序的。此外,还详细分析了哪些数学能力受益于指令调优(一种广泛使用的后训练方法),以及哪些技能受到影响。这项工作为实证理解LLM训练动态与推理能力的关系铺平了道路。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在预训练和后训练阶段,其数学推理能力是如何发展的。现有方法缺乏对LLM数学推理能力演变的细致分析,难以理解LLM如何以及为何能够进行数学推理。

核心思路:核心思路是通过构建一个包含细粒度数学技能的合成数据集(MathCAMPS),并利用该数据集来评估LLM在不同训练阶段的数学推理能力。通过分析LLM在不同阶段的表现,揭示其学习数学技能的顺序和方式,以及指令调优对不同技能的影响。

技术框架:整体框架包括以下几个主要步骤:1) 构建MathCAMPS数据集,该数据集包含44个细粒度的数学技能,涵盖K到8年级的通用核心课程。2) 选择多个开源LLM作为研究对象。3) 在LLM的预训练和指令调优阶段,使用MathCAMPS数据集评估其数学推理能力。4) 分析LLM在不同阶段的表现,揭示其学习数学技能的顺序和方式,以及指令调优对不同技能的影响。

关键创新:关键创新在于:1) 构建了MathCAMPS数据集,该数据集能够对LLM的数学推理能力进行细粒度的评估。2) 对LLM在预训练和指令调优阶段的数学推理能力进行了系统性的分析,揭示了其学习动态。3) 发现了预训练阶段数学技能的学习顺序与人类课程相关,并分析了指令调优对不同技能的影响。

关键设计:MathCAMPS数据集的设计考虑了K到8年级通用核心课程中的44个细粒度数学技能,每个技能都包含多个问题。评估指标包括准确率等。指令调优的具体方法和参数设置在论文中可能有所描述,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在预训练期间学习数学技能的顺序与人类设计的课程显著相关,即使训练数据是随机排序的。此外,研究还发现指令调优对不同的数学技能有不同的影响,有些技能受益于指令调优,而另一些技能则受到负面影响。具体的性能提升幅度未知,需要查阅原文。

🎯 应用场景

该研究成果可应用于提升LLM的数学推理能力,例如通过优化预训练数据或设计更有效的指令调优策略。此外,该研究也有助于理解LLM的通用学习机制,并为开发更智能的AI系统提供指导。该研究还可能影响教育领域,例如用于个性化学习或自动评估学生的数学能力。

📄 摘要(原文)

Large Language Models (LLMs) solely trained on next-token prediction learn to solve a wide range of problems involving mathematical reasoning. But how does this ability evolve during training? We show the first analysis of how mathematical reasoning abilities of several open-weight LLMs develop during pre-training and post-training. To this end, we construct MathCAMPS, a synthetic dataset of novel mathematical reasoning problems grounded in 44 fine-grained skills taken from the Common Core curriculum from K to 8th grades. In one experiment, we show that mathematical skills are learned during pre-training in an order that measurably correlates with the human-designed curriculum, even though training data are randomly ordered. We also show a detailed analysis of which mathematical abilities benefit from instruction tuning, a widely used post-training method and, in contrast, which skills suffer. Our work paves the way for an empirical understanding of LLM training dynamics in relation to reasoning.