A Survey of Reinforcement Learning for Large Reasoning Models

📄 arXiv: 2509.08827v3 📥 PDF

作者: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-10 (更新: 2025-10-09)

备注: Fixed typos; added missing and recent citations (117 -> 120 pages)

🔗 代码/项目: GITHUB


💡 一句话要点

综述:强化学习驱动的大型推理模型研究进展

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 奖励函数 深度学习

📋 核心要点

  1. 现有大型语言模型在复杂推理任务中面临挑战,需要更有效的训练方法。
  2. 利用强化学习,通过奖励机制引导模型学习推理策略,提升问题解决能力。
  3. 综述分析了RL在LLM推理中的应用,并探讨了未来发展方向和潜在挑战。

📝 摘要(中文)

本文综述了近年来强化学习(RL)在增强大型语言模型(LLM)推理能力方面的最新进展。强化学习在提升LLM能力方面取得了显著成功,尤其是在解决数学和编码等复杂的逻辑任务方面。因此,强化学习已成为将LLM转化为大型推理模型(LRM)的基础方法。随着该领域的快速发展,进一步扩展RL以适应LRM,不仅在计算资源方面,而且在算法设计、训练数据和基础设施方面都面临着基础性的挑战。为此,重新审视该领域的发展,重新评估其轨迹,并探索增强RL可扩展性的策略以实现人工超智能(ASI)是及时的。特别是,我们研究了将RL应用于LLM和LRM以获得推理能力的研究,尤其是在DeepSeek-R1发布之后,包括基础组件、核心问题、训练资源和下游应用,以确定这个快速发展领域的未来机遇和方向。我们希望这篇综述能促进未来对更广泛推理模型的RL研究。

🔬 方法详解

问题定义:论文旨在解决如何利用强化学习(RL)提升大型语言模型(LLM)的推理能力的问题。现有方法在处理复杂逻辑任务,如数学和编码时,仍然存在不足,难以充分发挥LLM的潜力。此外,随着模型规模的增大,训练所需的计算资源和数据量也呈指数级增长,对算法设计和基础设施提出了更高的要求。

核心思路:论文的核心思路是利用强化学习的奖励机制,引导LLM学习更有效的推理策略。通过定义合适的奖励函数,鼓励模型生成正确的推理步骤,从而提高其解决复杂问题的能力。这种方法能够克服传统监督学习的局限性,使模型能够从与环境的交互中学习,并逐步优化自身的推理能力。

技术框架:该综述涵盖了RL在LLM推理中的应用,包括基础组件(如奖励函数设计、状态表示等)、核心问题(如探索与利用的平衡、奖励稀疏性等)、训练资源(如数据集、计算平台等)和下游应用(如数学问题求解、代码生成等)。整体框架围绕如何利用RL提升LLM的推理能力展开,并对不同方法进行了分类和比较。

关键创新:该综述的关键创新在于系统性地总结了RL在LLM推理中的最新进展,并指出了该领域未来发展方向和潜在挑战。它不仅回顾了已有的研究成果,还对未来的研究方向提出了建议,例如如何设计更有效的奖励函数、如何解决奖励稀疏性问题、如何提高RL算法的可扩展性等。

关键设计:论文重点关注了奖励函数的设计,这是RL应用的关键。不同的任务需要不同的奖励函数,例如,在数学问题求解中,奖励函数可以根据答案的正确性进行设计;在代码生成中,奖励函数可以根据代码的执行结果进行设计。此外,论文还讨论了如何利用不同的RL算法(如策略梯度、Q学习等)来训练LLM,并对不同算法的优缺点进行了比较。

🖼️ 关键图片

img_0

📊 实验亮点

该综述重点关注了DeepSeek-R1发布后,RL在LLM推理能力提升方面的研究进展,涵盖了基础组件、核心问题、训练资源和下游应用。通过对现有方法的分析和比较,指出了未来研究方向和潜在挑战,为该领域的研究人员提供了有价值的参考。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的领域,如智能客服、自动编程、科学研究等。通过提升LLM的推理能力,可以使其更好地理解用户意图,生成更准确的代码,并辅助科学家进行科学发现。未来,随着RL算法的不断发展和计算资源的不断提升,RL驱动的LRM将在更多领域发挥重要作用。

📄 摘要(原文)

In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs