From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models

作者: Shubhra Mishra, Gabriel Poesia, Noah D. Goodman

分类: cs.AI, cs.CL

发布日期: 2024-07-01 (更新: 2025-10-14)

备注: Accepted to COLM 2025. Dataset and code: https://github.com/gpoesia/mathcamps/

期刊: Conference on Language Modeling (COLM), Montreal, Canada, October 7-10, 2025

💡 一句话要点

分析LLM数学推理能力演变，揭示预训练与指令调优的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 预训练 指令调优 学习动态 数据集构建 教育应用

📋 核心要点

现有研究缺乏对LLM数学推理能力在训练过程中如何演变的深入理解。
论文通过构建MathCAMPS数据集，并分析LLM在预训练和指令调优阶段的学习动态，揭示了数学技能的习得规律。
实验表明，预训练阶段数学技能的学习顺序与人类课程相关，并分析了指令调优对不同数学技能的影响。

📝 摘要（中文）

大型语言模型（LLM）仅通过下一个token预测训练，就能解决涉及数学推理的各种问题。本文首次分析了多个开源LLM在预训练和后训练过程中数学推理能力的演变。为此，作者构建了MathCAMPS，这是一个合成数据集，包含基于K到8年级通用核心课程中44个细粒度技能的新型数学推理问题。实验表明，预训练期间数学技能的学习顺序与人类设计的课程显著相关，即使训练数据是随机排序的。此外，还详细分析了哪些数学能力受益于指令调优（一种广泛使用的后训练方法），以及哪些技能受到影响。这项工作为实证理解LLM训练动态与推理能力的关系铺平了道路。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLM）在预训练和后训练阶段，其数学推理能力是如何发展的。现有方法缺乏对LLM数学推理能力演变的细致分析，难以理解LLM如何以及为何能够进行数学推理。

核心思路：核心思路是通过构建一个包含细粒度数学技能的合成数据集（MathCAMPS），并利用该数据集来评估LLM在不同训练阶段的数学推理能力。通过分析LLM在不同阶段的表现，揭示其学习数学技能的顺序和方式，以及指令调优对不同技能的影响。

技术框架：整体框架包括以下几个主要步骤：1) 构建MathCAMPS数据集，该数据集包含44个细粒度的数学技能，涵盖K到8年级的通用核心课程。2) 选择多个开源LLM作为研究对象。3) 在LLM的预训练和指令调优阶段，使用MathCAMPS数据集评估其数学推理能力。4) 分析LLM在不同阶段的表现，揭示其学习数学技能的顺序和方式，以及指令调优对不同技能的影响。

关键创新：关键创新在于：1) 构建了MathCAMPS数据集，该数据集能够对LLM的数学推理能力进行细粒度的评估。2) 对LLM在预训练和指令调优阶段的数学推理能力进行了系统性的分析，揭示了其学习动态。3) 发现了预训练阶段数学技能的学习顺序与人类课程相关，并分析了指令调优对不同技能的影响。

关键设计：MathCAMPS数据集的设计考虑了K到8年级通用核心课程中的44个细粒度数学技能，每个技能都包含多个问题。评估指标包括准确率等。指令调优的具体方法和参数设置在论文中可能有所描述，但具体细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在预训练期间学习数学技能的顺序与人类设计的课程显著相关，即使训练数据是随机排序的。此外，研究还发现指令调优对不同的数学技能有不同的影响，有些技能受益于指令调优，而另一些技能则受到负面影响。具体的性能提升幅度未知，需要查阅原文。

🎯 应用场景

该研究成果可应用于提升LLM的数学推理能力，例如通过优化预训练数据或设计更有效的指令调优策略。此外，该研究也有助于理解LLM的通用学习机制，并为开发更智能的AI系统提供指导。该研究还可能影响教育领域，例如用于个性化学习或自动评估学生的数学能力。

📄 摘要（原文）

Large Language Models (LLMs) solely trained on next-token prediction learn to solve a wide range of problems involving mathematical reasoning. But how does this ability evolve during training? We show the first analysis of how mathematical reasoning abilities of several open-weight LLMs develop during pre-training and post-training. To this end, we construct MathCAMPS, a synthetic dataset of novel mathematical reasoning problems grounded in 44 fine-grained skills taken from the Common Core curriculum from K to 8th grades. In one experiment, we show that mathematical skills are learned during pre-training in an order that measurably correlates with the human-designed curriculum, even though training data are randomly ordered. We also show a detailed analysis of which mathematical abilities benefit from instruction tuning, a widely used post-training method and, in contrast, which skills suffer. Our work paves the way for an empirical understanding of LLM training dynamics in relation to reasoning.

From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理