Reinforcement Mid-Training

作者: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang

分类: cs.CL

发布日期: 2025-09-29

💡 一句话要点

提出强化中期训练（RMT）框架，提升大语言模型性能并加速训练。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 中期训练 动态Token预算 自适应采样

📋 核心要点

现有大语言模型训练流程缺乏中间强化学习阶段，导致模型推理效率低，token利用不充分。
论文提出强化中期训练（RMT）框架，通过动态token预算、自适应采样和双重训练策略解决上述问题。
实验结果表明，RMT显著提升了语言建模和数学领域的性能，并减少了推理所需的token数量。

📝 摘要（中文）

本文指出，在预训练和后训练之间存在一个具有巨大性能提升潜力的中间阶段，即强化中期训练。论文正式定义了该问题，并识别出三个关键挑战：过度推理步骤导致的低效训练、忽略不平衡的token熵分布以及token信息的未充分利用。为了解决这些挑战，论文提出了RMT，一个高效、自适应和统一的强化中期训练框架，包含多种创新组件。具体而言，首先引入动态token预算机制，约束不必要的推理步骤并缓解模型过度思考。其次，设计了一种基于课程的自适应采样方法，促进从易到难的渐进式学习轨迹。最后，提出了一种结合强化学习和下一token预测的双重训练策略，确保对关键token的针对性学习并充分利用所有token信息。大量实验表明，RMT优于现有方法，在语言建模中实现了高达+64.91%的性能提升，同时推理长度仅为21%。论文还表明，强化中期训练后获得的检查点可以促进后续的后训练，在数学领域产生高达+18.76%的改进。

🔬 方法详解

问题定义：现有的大语言模型训练通常分为预训练和后训练两个阶段，忽略了中间阶段的强化学习。这导致模型在推理过程中产生过多的不必要步骤，训练效率低下。此外，模型对不同token的关注度不一致，token熵分布不平衡，导致关键token的信息未被充分利用，影响模型性能。

核心思路：论文的核心思路是通过引入强化中期训练（Reinforcement Mid-Training, RMT）阶段，利用强化学习来优化模型的推理过程，提高训练效率和性能。RMT旨在解决过度推理、token熵不平衡和token信息未充分利用的问题。通过动态调整token预算，自适应地采样token，并结合强化学习和下一token预测，使模型能够更有效地学习和利用token信息。

技术框架：RMT框架包含三个主要组成部分：动态token预算机制、基于课程的自适应采样方法和双重训练策略。动态token预算机制限制了模型在推理过程中使用的token数量，避免过度推理。基于课程的自适应采样方法根据token的难度调整采样概率，使模型能够从易到难地学习。双重训练策略结合了强化学习和下一token预测，既能优化模型的长期奖励，又能充分利用所有token信息。

关键创新：RMT的关键创新在于将强化学习引入到大语言模型的中间训练阶段，并提出了针对性的解决方案来解决强化学习在该阶段面临的挑战。与传统的预训练和后训练方法不同，RMT能够更有效地优化模型的推理过程，提高训练效率和性能。动态token预算机制、自适应采样方法和双重训练策略都是针对强化中期训练的独特设计。

关键设计：动态token预算机制通过设置一个动态变化的token数量上限，限制模型在推理过程中使用的token数量。这个上限可以根据模型的表现进行调整，避免过度推理。基于课程的自适应采样方法使用token熵作为难度指标，根据token的熵值调整采样概率。高熵token被赋予更高的采样概率，使模型能够更关注关键token。双重训练策略使用强化学习来优化模型的长期奖励，同时使用下一token预测来充分利用所有token信息。损失函数是强化学习损失和下一token预测损失的加权和。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RMT在语言建模任务中实现了高达+64.91%的性能提升，同时推理长度仅为21%。在数学领域，RMT获得的检查点可以促进后续的后训练，产生高达+18.76%的改进。这些结果表明，RMT能够显著提升大语言模型的性能和训练效率，优于现有方法。

🎯 应用场景

RMT框架可应用于各种需要高效推理和精确token利用的大语言模型训练场景，例如自然语言处理、机器翻译、文本生成和对话系统。通过提升模型性能和训练效率，RMT能够降低计算成本，加速模型开发，并提高用户体验。该研究对大语言模型的训练范式具有重要意义，有望推动相关技术的进一步发展。

📄 摘要（原文）

The development of state-of-the-art large language models is commonly understood as a two-stage process involving pre-training and post-training. We point out the need for an additional intermediate stage called reinforcement mid-training with potential for strong performance gains. In this paper, we formally define the problem and identify three key challenges: (1) inefficient training due to excessive reasoning steps, (2) disregard of the imbalanced token entropy distribution, and (3) underutilization of token information. To address these challenges, we propose RMT, a framework for efficient, adaptive, and unified reinforcement mid-training with various innovative components. In particular, we first introduce a dynamic token budget mechanism that constrains unnecessary reasoning steps and mitigates model overthinking. Next, we design a curriculum-based adaptive sampling method that fosters a progressive learning trajectory from easy to hard tokens. Finally, we present a dual training strategy that combines reinforcement learning with next-token prediction, ensuring targeted learning on key tokens and full exploitation of all token information. Extensive experiments demonstrate the superiority of RMT over state-of-the-art methods, achieving up to +64.91% performance improvement with only 21% of the reasoning length in language modeling. We also show that checkpoints obtained after reinforcement mid-training can benefit the subsequent post-training, yielding up to +18.76% improvement in the mathematical domain.

Reinforcement Mid-Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理