SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
作者: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-03-24 (更新: 2025-08-06)
备注: Published as a conference paper at COLM 2025
💡 一句话要点
SimpleRL-Zoo:探索和驯服零强化学习,用于通用开放基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零强化学习 大型语言模型 思维链 奖励函数 基础模型 指令遵循 模型训练
📋 核心要点
- 现有零强化学习研究主要集中在Qwen2.5系列模型,缺乏对其他基础模型的广泛探索,可能导致结论的片面性。
- 该研究通过调整格式奖励和控制查询难度等策略,探索了10个不同基础模型上的零强化学习训练。
- 实验表明,不同基础模型在零强化学习训练中表现出不同的模式,并在非Qwen系列小模型中首次观察到“顿悟时刻”。
📝 摘要(中文)
DeepSeek-R1表明,通过一个简单的强化学习(RL)框架和基于规则的奖励,长链思维(CoT)推理可以自然涌现,训练可以直接从基础模型开始——这种范式被称为零RL训练。最近重现零RL训练的工作主要集中在Qwen2.5模型系列上,但我们发现这些基础模型已经表现出强大的指令遵循和自我反思能力,可能不具有代表性。本文研究了10个不同的基础模型上的零RL训练,涵盖了不同的系列和大小,包括LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B以及所有Qwen2.5模型(从0.5B到32B)。通过调整格式奖励和控制查询难度等关键设计策略,我们在大多数设置中实现了推理准确性和响应长度的显著提高。然而,通过仔细监控训练动态,我们观察到不同的基础模型在训练过程中表现出不同的模式。例如,响应长度的增加并不总是与诸如验证(即“顿悟时刻”)等某些认知行为的出现相关。值得注意的是,我们首次在非Qwen系列的小模型中观察到“顿悟时刻”。我们分享了实现成功零RL训练的关键设计,以及我们的发现和实践。为了方便进一步研究,我们开源了代码、模型和分析工具。
🔬 方法详解
问题定义:论文旨在研究零强化学习(Zero RL)在不同基础模型上的表现,并探索如何有效地训练这些模型。现有研究主要集中在Qwen2.5系列模型上,缺乏对其他模型(如LLama3、Mistral等)的系统性研究,并且可能因为Qwen2.5模型本身具有较强的指令遵循能力而导致结论的偏差。此外,现有方法在训练过程中可能存在响应长度与认知行为不匹配的问题。
核心思路:论文的核心思路是通过调整训练策略,例如格式奖励和查询难度,来提升不同基础模型在零RL训练中的性能。通过对多种模型进行实验,观察不同模型在训练过程中的动态变化,从而更好地理解零RL训练的内在机制,并找到适用于不同模型的训练方法。该思路旨在克服现有研究的局限性,并为零RL训练提供更通用的指导。
技术框架:该研究的技术框架主要包括以下几个部分:1)选择多样化的基础模型,包括LLama3、Mistral、DeepSeek、Qwen等;2)设计基于规则的奖励函数,用于指导模型的训练;3)调整格式奖励,鼓励模型生成更符合要求的输出格式;4)控制查询难度,避免模型在训练初期遇到过于困难的问题;5)监控训练动态,观察模型在训练过程中的行为变化,例如响应长度、推理准确性等;6)分析实验结果,总结不同模型的训练特点,并提出相应的训练建议。
关键创新:该研究的关键创新在于:1)对多种基础模型进行了零RL训练的系统性研究,弥补了现有研究的不足;2)提出了调整格式奖励和控制查询难度等有效的训练策略;3)首次在非Qwen系列的小模型中观察到“顿悟时刻”,为理解零RL训练的内在机制提供了新的视角;4)开源了代码、模型和分析工具,方便其他研究者进行进一步的研究。
关键设计:论文的关键设计包括:1)格式奖励的设计,旨在引导模型生成更结构化的输出,例如包含问题、推理过程和答案的CoT格式;2)查询难度的控制,通过逐步增加问题的难度,避免模型在训练初期陷入困境;3)训练动态的监控,通过记录模型在训练过程中的各项指标(如响应长度、准确率等),了解模型的学习过程;4)奖励函数的选择,采用了基于规则的奖励函数,根据模型的输出是否符合预定义的规则来给予奖励。
🖼️ 关键图片
📊 实验亮点
该研究在多个基础模型上验证了零强化学习的有效性,通过调整格式奖励和控制查询难度,显著提高了模型的推理准确性和响应长度。值得注意的是,研究首次在非Qwen系列的小模型中观察到“顿悟时刻”,表明零强化学习并非Qwen系列模型的特有现象。实验结果表明,通过合适的训练策略,零强化学习可以有效地提升各种基础模型的认知能力。
🎯 应用场景
该研究成果可应用于提升各种大型语言模型在特定任务上的推理能力,例如数学问题求解、常识推理等。通过零强化学习,可以在不依赖大量标注数据的情况下,使模型具备更强的认知能力。此外,该研究的开源代码和模型可以促进零强化学习在更广泛领域的应用,例如智能客服、教育辅导等。
📄 摘要(原文)
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can naturally emerge through a simple reinforcement learning (RL) framework with rule-based rewards, where the training may directly start from the base models-a paradigm referred to as zero RL training. Most recent efforts to reproduce zero RL training have primarily focused on the Qwen2.5 model series, which may not be representative as we find the base models already exhibit strong instruction-following and self-reflection abilities. In this work, we investigate zero RL training across 10 diverse base models, spanning different families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several key design strategies-such as adjusting format reward and controlling query difficulty-we achieve substantial improvements in both reasoning accuracy and response length across most settings. However, by carefully monitoring the training dynamics, we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. To facilitate further research, we open-source the code, models, and analysis tools.