Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

作者: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum

分类: cs.LG, cs.CL

发布日期: 2025-03-31 (更新: 2025-07-05)

💡 一句话要点

开源Open-Reasoner-Zero：在基础模型上扩展强化学习，提升推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 推理 语言模型 开源 PPO 规则奖励 Qwen 优势函数估计

📋 核心要点

现有基于强化学习的推理模型训练成本高昂，难以复现，阻碍了研究进展。
Open-Reasoner-Zero采用极简的PPO强化学习框架，结合规则奖励，实现高效推理能力提升。
实验表明，该方法在多个推理基准测试中超越现有模型，且训练效率更高，仅需十分之一的训练步骤。

📝 摘要（中文）

本文介绍了Open-Reasoner-Zero，这是首个开源的、面向推理的大规模强化学习训练实现，它基于基础模型，并专注于可扩展性、简洁性和可访问性。通过大量实验，证明了一种极简方法——带有GAE（λ=1，γ=1）的vanilla PPO和直接的基于规则的奖励，无需任何KL正则化，就足以扩展基准性能和响应长度，复现了DeepSeek-R1-Zero中观察到的扩展现象。使用与DeepSeek-R1-Zero-Qwen-32B相同的Qwen2.5-32B基础模型，我们的实现方案在AIME2024、MATH500和GPQA Diamond上实现了卓越的性能，同时展现了显著的效率，仅需DeepSeek-R1-Zero流程的1/10的训练步骤。此外，我们的分析不仅涵盖了训练动态和关键设计选择的消融实验，还定量地展示了Reasoner-Zero训练中学习到的critic如何有效地识别和降低重复响应模式的价值，从而产生更稳健的优势估计并增强训练稳定性。秉承开源原则，我们发布了源代码、训练数据和各种模型权重，以促进可重复性并鼓励进一步探索相关模型的属性。

🔬 方法详解

问题定义：论文旨在解决大规模语言模型推理能力提升的问题。现有方法，如DeepSeek-R1-Zero，虽然有效，但训练流程复杂，计算资源需求巨大，难以复现和进一步研究。这限制了社区对强化学习在语言模型推理方面应用的探索。

核心思路：论文的核心思路是采用一种极简的强化学习方法，即vanilla PPO算法，结合简单的规则奖励，来训练语言模型，使其具备更强的推理能力。这种方法旨在降低训练的复杂性和计算成本，同时保持甚至超越现有方法的性能。

技术框架：Open-Reasoner-Zero的整体框架包括以下几个主要部分：1) 基于Qwen2.5-32B的基础语言模型；2) 使用PPO算法进行强化学习训练；3) 使用GAE（λ=1，γ=1）进行优势函数估计；4) 使用基于规则的奖励函数来引导模型的训练。整个流程旨在通过强化学习，优化模型在推理任务中的表现。

关键创新：该方法最重要的创新点在于其简洁性。它摒弃了复杂的KL正则化和其他技巧，仅使用vanilla PPO和简单的规则奖励，就能达到甚至超越现有方法的性能。此外，论文还分析了critic网络在训练中的作用，发现它可以有效地识别和降低重复响应模式的价值，从而提高训练的稳定性和效果。

关键设计：关键设计包括：1) 使用Qwen2.5-32B作为基础模型，保证了模型的初始能力；2) 使用GAE（λ=1，γ=1）进行优势函数估计，简化了计算；3) 设计简单的规则奖励函数，避免了复杂的奖励工程；4) 没有使用KL正则化，降低了训练的复杂性。这些设计选择共同促成了Open-Reasoner-Zero的高效性和有效性。

🖼️ 关键图片

📊 实验亮点

Open-Reasoner-Zero在AIME2024、MATH500和GPQA Diamond等基准测试中取得了优于DeepSeek-R1-Zero-Qwen-32B的性能。更重要的是，它仅需DeepSeek-R1-Zero流程的1/10的训练步骤，显著提高了训练效率。这表明，通过简化强化学习方法，可以在保证性能的同时，大幅降低训练成本。

🎯 应用场景

Open-Reasoner-Zero具有广泛的应用前景，可用于提升各种语言模型在推理、问答、数学问题求解等任务中的性能。其开源特性降低了研究和应用的门槛，促进了相关技术的发展。该方法还可应用于教育、金融、医疗等领域，提升AI在这些领域的智能化水平。

📄 摘要（原文）

We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training on the base model focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE ($λ=1$, $γ=1$) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both benchmark performance and response length, replicating the scaling phenomenon observed in DeepSeek-R1-Zero. Using the same base model, Qwen2.5-32B base, as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance across AIME2024, MATH500, and GPQA Diamond, while demonstrating remarkable efficiency, requiring only 1/10 of the training steps compared to the DeepSeek-R1-Zero pipeline. Moreover, our analysis not only covers training dynamics and ablation for critical design choices, but also quantitatively shows how the learned critic in Reasoner-Zero training effectively identifies and devalues repetitive response patterns, yielding more robust advantage estimations and enhancing training stability. Embracing the principles of open-source, we release our source code, training data, and various model weights, fostering reproducibility and encouraging further exploration of the properties of related models.

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理