On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

作者: Charlie Zhang, Graham Neubig, Xiang Yue

分类: cs.CL

发布日期: 2025-12-08

💡 一句话要点

提出可控实验框架，解析预训练、中期训练和强化学习对推理语言模型的影响

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 推理语言模型 强化学习 预训练 中期训练 可控实验 合成任务 泛化能力

📋 核心要点

现有方法难以控制预训练数据和训练过程，导致无法准确评估强化学习对语言模型推理能力的提升。
设计可控的实验框架，使用合成推理任务，显式操作训练分布，隔离预训练、中期训练和强化学习的影响。
实验表明，强化学习仅在预训练有空间且针对模型能力边缘时有效，中期训练显著提升性能，过程级奖励提高推理保真度。

📝 摘要（中文）

近期的强化学习(RL)技术在语言模型的推理能力上取得了显著提升，但后训练是否真正扩展了模型在预训练期间获得的推理能力仍不清楚。一个核心挑战是现代训练流程缺乏控制：大规模预训练语料库是不透明的，中期训练经常被忽视，并且RL目标以复杂的方式与未知的先验知识相互作用。为了消除这种模糊性，我们开发了一个完全可控的实验框架，该框架隔离了预训练、中期训练和基于RL的后训练的因果贡献。我们的方法采用具有显式原子操作、可解析的逐步推理轨迹和系统地操纵训练分布的合成推理任务。我们沿着两个轴评估模型：外推泛化到更复杂的组合和跨表面上下文的上下文泛化。使用这个框架，我们调和了关于RL有效性的相互竞争的观点。我们表明：1)只有当预训练留下足够的空间，并且当RL数据针对模型的能力边缘（即困难但尚未超出范围的任务）时，RL才会产生真正的能力提升。2)上下文泛化需要最小但足够的预训练暴露，之后RL可以可靠地转移。3)与仅使用RL相比，中期训练在固定计算量下显著提高了性能，证明了其在训练流程中的核心但未被充分探索的作用。4)过程级奖励减少了奖励黑客行为并提高了推理保真度。总之，这些结果阐明了预训练、中期训练和RL之间的相互作用，为理解和改进推理LM训练策略奠定了基础。

🔬 方法详解

问题定义：现有语言模型训练流程中，预训练数据规模庞大且不透明，中期训练常被忽视，强化学习目标与模型先验知识交互复杂，导致难以确定强化学习对模型推理能力的真实贡献。现有方法缺乏对训练过程的精细控制，无法有效评估不同训练阶段的作用。

核心思路：通过构建完全可控的实验环境，隔离预训练、中期训练和强化学习的影响，从而明确各个阶段对模型推理能力的贡献。使用合成推理任务，可以精确控制训练数据的分布和复杂度，并提供可解析的推理轨迹，便于分析模型行为。

技术框架：该研究构建了一个可控的实验框架，包含以下几个关键组成部分： 1. 合成推理任务：设计具有显式原子操作和可解析推理步骤的合成任务，例如数学运算或逻辑推理。 2. 训练数据控制：系统地操纵训练数据的分布，例如控制任务的复杂度、上下文的多样性等。 3. 模型训练流程：分别进行预训练、中期训练和强化学习，并控制每个阶段的训练数据和目标。 4. 评估指标：使用外推泛化和上下文泛化等指标，评估模型在不同训练阶段的推理能力。

关键创新：该研究最重要的创新在于构建了一个完全可控的实验框架，可以隔离和评估预训练、中期训练和强化学习对语言模型推理能力的独立贡献。这与以往研究中难以控制训练数据和过程形成了鲜明对比，为深入理解不同训练阶段的作用提供了可能。

关键设计： 1. 合成任务设计：精心设计合成推理任务，确保任务具有足够的复杂度和可控性，能够反映模型的推理能力。 2. 训练数据分布：通过控制训练数据的分布，例如任务的复杂度、上下文的多样性等，来研究不同训练阶段对模型泛化能力的影响。 3. 奖励函数设计：设计过程级别的奖励函数，鼓励模型生成更符合逻辑的推理步骤，减少奖励黑客行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，强化学习只有在预训练留下足够空间且针对模型能力边缘时才能有效提升推理能力。中期训练在固定计算量下显著优于仅使用强化学习，证明了其重要性。过程级奖励能有效减少奖励黑客行为，提高推理保真度。研究还发现，上下文泛化需要最小但足够的预训练。

🎯 应用场景

该研究成果可应用于提升各种需要复杂推理能力的语言模型，例如对话系统、问答系统、代码生成等。通过优化预训练、中期训练和强化学习的策略，可以显著提高模型在实际应用中的性能和可靠性，并为开发更强大的通用人工智能系统提供指导。

📄 摘要（原文）

Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理