Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

📄 arXiv: 2503.24290v2 📥 PDF

作者: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum

分类: cs.LG, cs.CL

发布日期: 2025-03-31 (更新: 2025-07-05)


💡 一句话要点

开源Open-Reasoner-Zero:在基础模型上扩展强化学习,提升推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 推理 语言模型 开源 PPO 规则奖励 Qwen 优势函数估计

📋 核心要点

  1. 现有基于强化学习的推理模型训练成本高昂,难以复现,阻碍了研究进展。
  2. Open-Reasoner-Zero采用极简的PPO强化学习框架,结合规则奖励,实现高效推理能力提升。
  3. 实验表明,该方法在多个推理基准测试中超越现有模型,且训练效率更高,仅需十分之一的训练步骤。

📝 摘要(中文)

本文介绍了Open-Reasoner-Zero,这是首个开源的、面向推理的大规模强化学习训练实现,它基于基础模型,并专注于可扩展性、简洁性和可访问性。通过大量实验,证明了一种极简方法——带有GAE(λ=1,γ=1)的vanilla PPO和直接的基于规则的奖励,无需任何KL正则化,就足以扩展基准性能和响应长度,复现了DeepSeek-R1-Zero中观察到的扩展现象。使用与DeepSeek-R1-Zero-Qwen-32B相同的Qwen2.5-32B基础模型,我们的实现方案在AIME2024、MATH500和GPQA Diamond上实现了卓越的性能,同时展现了显著的效率,仅需DeepSeek-R1-Zero流程的1/10的训练步骤。此外,我们的分析不仅涵盖了训练动态和关键设计选择的消融实验,还定量地展示了Reasoner-Zero训练中学习到的critic如何有效地识别和降低重复响应模式的价值,从而产生更稳健的优势估计并增强训练稳定性。秉承开源原则,我们发布了源代码、训练数据和各种模型权重,以促进可重复性并鼓励进一步探索相关模型的属性。

🔬 方法详解

问题定义:论文旨在解决大规模语言模型推理能力提升的问题。现有方法,如DeepSeek-R1-Zero,虽然有效,但训练流程复杂,计算资源需求巨大,难以复现和进一步研究。这限制了社区对强化学习在语言模型推理方面应用的探索。

核心思路:论文的核心思路是采用一种极简的强化学习方法,即vanilla PPO算法,结合简单的规则奖励,来训练语言模型,使其具备更强的推理能力。这种方法旨在降低训练的复杂性和计算成本,同时保持甚至超越现有方法的性能。

技术框架:Open-Reasoner-Zero的整体框架包括以下几个主要部分:1) 基于Qwen2.5-32B的基础语言模型;2) 使用PPO算法进行强化学习训练;3) 使用GAE(λ=1,γ=1)进行优势函数估计;4) 使用基于规则的奖励函数来引导模型的训练。整个流程旨在通过强化学习,优化模型在推理任务中的表现。

关键创新:该方法最重要的创新点在于其简洁性。它摒弃了复杂的KL正则化和其他技巧,仅使用vanilla PPO和简单的规则奖励,就能达到甚至超越现有方法的性能。此外,论文还分析了critic网络在训练中的作用,发现它可以有效地识别和降低重复响应模式的价值,从而提高训练的稳定性和效果。

关键设计:关键设计包括:1) 使用Qwen2.5-32B作为基础模型,保证了模型的初始能力;2) 使用GAE(λ=1,γ=1)进行优势函数估计,简化了计算;3) 设计简单的规则奖励函数,避免了复杂的奖励工程;4) 没有使用KL正则化,降低了训练的复杂性。这些设计选择共同促成了Open-Reasoner-Zero的高效性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Open-Reasoner-Zero在AIME2024、MATH500和GPQA Diamond等基准测试中取得了优于DeepSeek-R1-Zero-Qwen-32B的性能。更重要的是,它仅需DeepSeek-R1-Zero流程的1/10的训练步骤,显著提高了训练效率。这表明,通过简化强化学习方法,可以在保证性能的同时,大幅降低训练成本。

🎯 应用场景

Open-Reasoner-Zero具有广泛的应用前景,可用于提升各种语言模型在推理、问答、数学问题求解等任务中的性能。其开源特性降低了研究和应用的门槛,促进了相关技术的发展。该方法还可应用于教育、金融、医疗等领域,提升AI在这些领域的智能化水平。

📄 摘要(原文)

We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training on the base model focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE ($λ=1$, $γ=1$) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both benchmark performance and response length, replicating the scaling phenomenon observed in DeepSeek-R1-Zero. Using the same base model, Qwen2.5-32B base, as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance across AIME2024, MATH500, and GPQA Diamond, while demonstrating remarkable efficiency, requiring only 1/10 of the training steps compared to the DeepSeek-R1-Zero pipeline. Moreover, our analysis not only covers training dynamics and ablation for critical design choices, but also quantitatively shows how the learned critic in Reasoner-Zero training effectively identifies and devalues repetitive response patterns, yielding more robust advantage estimations and enhancing training stability. Embracing the principles of open-source, we release our source code, training data, and various model weights, fostering reproducibility and encouraging further exploration of the properties of related models.