ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

📄 arXiv: 2505.24864v1 📥 PDF

作者: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

分类: cs.CL, cs.AI

发布日期: 2025-05-30

备注: 26 pages, 17 figures

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

ProRL:通过长期强化学习拓展大语言模型的推理边界

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 推理能力 长期训练 KL散度控制

📋 核心要点

  1. 现有研究未能充分证明强化学习(RL)能否真正扩展大语言模型的推理能力,还是仅仅放大了已有能力。
  2. 论文提出ProRL方法,通过长期强化学习、KL散度控制和参考策略重置等手段,探索模型未知的推理策略。
  3. 实验表明,ProRL训练的模型在多种推理任务上显著优于基线模型,尤其是在基线模型完全失败的场景下。

📝 摘要(中文)

最近以推理为中心的语言模型的进展表明,强化学习(RL)是使模型与可验证奖励对齐的一种有前途的方法。然而,RL是否真正扩展了模型的推理能力,或者仅仅放大了基础模型分布中已经潜在的高奖励输出,以及不断扩大RL计算规模是否可靠地带来推理性能的提高,仍然存在争议。在这项工作中,我们通过证明长期的RL(ProRL)训练可以发现基础模型无法访问的新颖推理策略来挑战普遍的假设,即使在广泛的采样下也是如此。我们引入了ProRL,一种新颖的训练方法,它结合了KL散度控制、参考策略重置和多样化的任务套件。我们的实证分析表明,RL训练的模型在各种pass@k评估中始终优于基础模型,包括基础模型完全失败的场景,无论尝试次数如何。我们进一步表明,推理边界的改进与基础模型的任务能力和训练持续时间密切相关,这表明RL可以随着时间的推移探索和填充新的解决方案空间区域。这些发现为RL在何种条件下有意义地扩展语言模型的推理边界提供了新的见解,并为未来关于推理的长期RL工作奠定了基础。我们发布了模型权重以支持进一步的研究:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

🔬 方法详解

问题定义:现有方法难以确定强化学习对大语言模型推理能力的真实贡献,无法区分是扩展了推理边界,还是仅仅放大了已有能力。此外,简单地增加RL计算资源是否能稳定提升推理性能也存在疑问。

核心思路:通过长时间的强化学习训练,使模型能够探索和发现基础模型无法触及的新的推理策略。核心在于打破模型原有的认知边界,寻找更优的解空间。

技术框架:ProRL包含以下关键组成部分:1) 长期强化学习训练,保证模型有足够的时间探索解空间;2) KL散度控制,防止模型过度偏离原始策略;3) 参考策略重置,定期将策略重置到更早期的状态,鼓励探索更多样化的策略;4) 多样化的任务套件,提供更丰富的训练数据,提升模型的泛化能力。

关键创新:ProRL的核心创新在于其“长期性”,即通过长时间的训练,突破了传统RL训练的局限,使模型能够发现基础模型无法发现的推理策略。与现有方法相比,ProRL更注重探索未知的解空间,而非仅仅优化已知的策略。

关键设计:KL散度控制采用自适应的系数,根据训练的进展动态调整。参考策略重置的频率根据任务的复杂程度进行调整。损失函数结合了奖励信号和KL散度惩罚项。具体参数设置和网络结构细节未在论文中详细说明,可能需要参考代码或后续研究。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ProRL训练的模型在多个推理任务上显著优于基线模型,尤其是在基线模型无论尝试多少次都无法解决的问题上。推理边界的改进与基础模型的任务能力和训练时长呈正相关,表明ProRL能够随着时间的推移探索和填充新的解决方案空间。

🎯 应用场景

ProRL方法可以应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理等。该研究有助于提升大语言模型在这些领域的性能,并为开发更强大的通用人工智能系统奠定基础。未来的研究可以探索ProRL在其他模态数据上的应用,例如图像和视频。

📄 摘要(原文)

Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning. We release model weights to support further research: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B