An Empirical Study on Eliciting and Improving R1-like Reasoning Models

作者: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen

分类: cs.CL

发布日期: 2025-03-06

备注: Technical Report on Slow Thinking with LLMs: Part III

🔗 代码/项目: GITHUB

💡 一句话要点

通过强化学习和工具使用提升类R1推理模型的性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 强化学习 推理模型 工具使用 大型语言模型 慢思考 AIME Qwen2.5 DeepSeek-R1

📋 核心要点

现有推理模型在复杂推理任务中表现不足，尤其是在需要多步推理和外部知识的任务上。
论文提出利用强化学习训练和工具使用来提升模型的推理能力，使其更接近人类的慢思考模式。
实验表明，该方法能够显著提高模型在AIME 2024等推理任务上的准确率，验证了其有效性。

📝 摘要（中文）

本报告是STILL项目关于慢思考模型开发的第三份技术报告。随着技术路径日益清晰，扩展强化学习（RL）训练已成为实现此类推理模型的核心技术。我们系统地实验并记录了影响RL训练的各种因素，对基础模型和微调模型进行了实验。具体而言，我们证明了我们的RL训练方法能够持续改进Qwen2.5-32B基础模型，从而提高响应长度和测试准确性。此外，我们表明，即使像DeepSeek-R1-Distill-Qwen-1.5B这样的模型已经达到了很高的性能水平，也可以通过RL训练进一步改进，在AIME 2024上达到39.33%的准确率。除了RL训练，我们还探索了工具的使用，发现它可以显著提高大型推理模型的推理性能。这种方法在AIME 2024上通过贪婪搜索实现了86.67%的显著准确率，突显了其在增强模型能力方面的有效性。我们在STILL项目网站上发布了我们的资源：https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在复杂推理任务中表现不足的问题。现有方法通常依赖于大规模预训练和微调，但在需要多步推理、利用外部知识或进行复杂计算的任务中，性能仍然有限。痛点在于模型难以有效地进行长程推理和利用外部工具。

核心思路：论文的核心思路是通过强化学习（RL）训练来引导模型学习更有效的推理策略，并结合工具使用来增强模型的能力。通过RL训练，模型可以学习如何更好地规划推理步骤，并利用外部工具来辅助推理过程。这种方法旨在模拟人类的慢思考过程，从而提高模型的推理能力。

技术框架：整体框架包含两个主要部分：强化学习训练和工具使用。首先，使用强化学习算法（具体算法未知）对模型进行训练，目标是最大化模型在推理任务上的奖励。奖励函数的设计至关重要，需要能够准确地反映模型的推理质量。其次，模型被赋予使用外部工具的能力，例如计算器或搜索引擎。在推理过程中，模型可以根据需要调用这些工具来获取额外的信息或进行计算。

关键创新：论文的关键创新在于将强化学习训练和工具使用相结合，以提升大型语言模型的推理能力。与传统的微调方法相比，强化学习训练可以更好地引导模型学习推理策略。而工具的使用则可以显著扩展模型的能力范围，使其能够处理更复杂的推理任务。这种结合使得模型能够更有效地进行长程推理和利用外部知识。

关键设计：关于强化学习训练的具体算法、奖励函数设计以及工具使用的具体方式，论文中没有详细说明。这些是影响模型性能的关键因素，需要根据具体的任务和模型进行调整。此外，如何有效地将强化学习训练和工具使用相结合，也是一个重要的设计考虑。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过强化学习训练，Qwen2.5-32B基础模型的响应长度和测试准确性得到了持续改进。即使是像DeepSeek-R1-Distill-Qwen-1.5B这样已经表现出色的模型，也可以通过强化学习训练进一步提升，在AIME 2024上达到39.33%的准确率。此外，工具的使用使得模型在AIME 2024上通过贪婪搜索实现了86.67%的显著准确率。

🎯 应用场景

该研究成果可应用于需要复杂推理能力的各种场景，例如数学问题求解、科学研究、金融分析、法律咨询等。通过提升模型的推理能力，可以使其在这些领域发挥更大的作用，并为人类提供更智能化的服务。未来，该技术有望被集成到各种智能系统中，从而提高系统的整体性能。

📄 摘要（原文）

In this report, we present the third technical report on the development of slow-thinking models as part of the STILL project. As the technical pathway becomes clearer, scaling RL training has become a central technique for implementing such reasoning models. We systematically experiment with and document the effects of various factors influencing RL training, conducting experiments on both base models and fine-tuned models. Specifically, we demonstrate that our RL training approach consistently improves the Qwen2.5-32B base models, enhancing both response length and test accuracy. Furthermore, we show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already achieved a high performance level, it can be further refined through RL training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we also explore the use of tool manipulation, finding that it significantly boosts the reasoning performance of large reasoning models. This approach achieves a remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its effectiveness in enhancing model capabilities. We release our resources at the STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

An Empirical Study on Eliciting and Improving R1-like Reasoning Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理