Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training
作者: Mingjie Liu, Shizhe Diao, Jian Hu, Ximing Lu, Xin Dong, Hao Zhang, Alexander Bukharin, Shaokun Zhang, Jiaqi Zeng, Makesh Narsimhan Sreedhar, Gerald Shen, David Mosallanezhad, Di Zhang, Jonas Yang, June Yang, Oleksii Kuchaiev, Guilin Liu, Zhiding Yu, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-07-16
备注: 14 pages, 7 figures
💡 一句话要点
通过长期强化学习,解锁LLM在多样推理任务中的能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 语言模型 推理能力 长期训练 奖励函数
📋 核心要点
- 现有方法在复杂推理任务中依赖大规模计算,但缺乏有效的训练方法来充分利用计算资源。
- 通过长期强化学习,结合可验证奖励信号和改进的GRPO算法,提升模型在多样推理任务中的性能。
- 实验表明,该方法在数学、编程和逻辑推理等任务上取得了显著的性能提升,证明了长期强化学习的有效性。
📝 摘要(中文)
本文研究了长期强化学习对小型语言模型在多样推理领域的影响。研究表明,有效训练的关键要素包括使用可验证的奖励任务、改进Group Relative Policy Optimization (GRPO) 以及提高训练稳定性和泛化能力的实用技术。论文引入了可控KL正则化、裁剪率和周期性参考策略重置等关键组件,以解锁长期性能提升。实验结果表明,该模型在数学、编程和逻辑谜题任务上均优于强大的基线模型,分别提升了+14.7%、+13.9%和+54.8%。为了促进进一步研究,作者公开发布了训练后的模型。
🔬 方法详解
问题定义:现有语言模型在数学、代码生成等复杂推理任务中,虽然可以通过增加测试时的计算量(如思维链推理)来提升性能,但如何有效地训练模型,使其能够充分利用这些计算资源,仍然是一个挑战。现有的强化学习方法可能存在训练不稳定、泛化能力差等问题,难以实现长期性能提升。
核心思路:本文的核心思路是通过长期强化学习,结合可验证的奖励信号,来训练语言模型。通过精心设计的训练策略和技术,提高训练的稳定性和泛化能力,从而解锁模型在多样推理任务中的潜力。
技术框架:整体框架基于强化学习,使用语言模型作为策略网络。训练过程中,模型根据当前状态(例如,数学题的中间步骤)生成动作(例如,下一步的计算),并从环境中获得奖励(例如,答案是否正确)。通过不断地与环境交互,模型学习到最优的策略。关键模块包括:奖励函数设计、策略优化算法(GRPO的改进版本)和训练稳定化技术。
关键创新:论文的关键创新在于:1) 提出了使用可验证的奖励任务,提供客观和有根据的监督信号;2) 改进了Group Relative Policy Optimization (GRPO) 算法,使其更适合长期训练;3) 引入了可控KL正则化、裁剪率和周期性参考策略重置等技术,以提高训练的稳定性和泛化能力。这些技术共同作用,使得模型能够实现长期性能提升。
关键设计:论文中,可控KL正则化用于约束策略更新的幅度,防止策略漂移;裁剪率用于限制重要性采样的权重,提高训练的稳定性;周期性参考策略重置用于防止模型过度拟合到初始策略。奖励函数的设计至关重要,需要能够准确地反映模型的推理能力。具体参数设置和网络结构细节在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该模型在数学(math)、编程(coding)和逻辑谜题(logic puzzle)任务上均取得了显著的性能提升,分别达到了+14.7%、+13.9%和+54.8%。这些提升表明,通过长期强化学习,可以有效地提高语言模型在多样推理任务中的能力,并超越现有的基线模型。
🎯 应用场景
该研究成果可应用于各种需要复杂推理能力的场景,例如:自动数学解题、代码自动生成、逻辑推理、智能问答等。通过提升语言模型的推理能力,可以提高这些应用的智能化水平和用户体验。未来,该方法有望应用于更广泛的领域,例如科学发现、决策支持等。
📄 摘要(原文)
Recent advancements in reasoning-focused language models such as OpenAI's O1 and DeepSeek-R1 have shown that scaling test-time computation-through chain-of-thought reasoning and iterative exploration-can yield substantial improvements on complex tasks like mathematics and code generation. These breakthroughs have been driven by large-scale reinforcement learning (RL), particularly when combined with verifiable reward signals that provide objective and grounded supervision. In this report, we investigate the effects of prolonged reinforcement learning on a small language model across a diverse set of reasoning domains. Our work identifies several key ingredients for effective training, including the use of verifiable reward tasks, enhancements to Group Relative Policy Optimization (GRPO), and practical techniques to improve training stability and generalization. We introduce controlled KL regularization, clipping ratio, and periodic reference policy resets as critical components for unlocking long-term performance gains. Our model achieves significant improvements over strong baselines, including +14.7% on math, +13.9% on coding, and +54.8% on logic puzzle tasks. To facilitate continued research, we release our model publicly.