GRLO: Towards Generalizable Reinforcement Learning in Open-Ended Environments from Zero

📄 arXiv: 2605.15464v1 📥 PDF

作者: Shangjian Yin, Yu Fu, Yue Dong, Zhouxing Shi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-14

🔗 代码/项目: GITHUB


💡 一句话要点

GRLO:探索从零开始在开放环境中实现通用强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 开放环境 泛化能力 对话模型 后训练 语言模型

📋 核心要点

  1. 现有领域内强化学习训练(RLVR)虽然性能优异,但计算成本高昂,阻碍了广泛应用。
  2. GRLO探索了从少量交互中学习的RLHF在开放环境中的泛化能力,利用对话能力迁移到下游任务。
  3. 实验表明,GRLO在Qwen3-4B-Base上显著提升了跨领域平均性能,同时大幅降低了数据和计算需求。

📝 摘要(中文)

后训练已成为释放大型语言模型能力的关键步骤,其中强化学习(RL)是重要的范例。最近基于RL的后训练日益分为两种范式:基于人类反馈的强化学习(RLHF),它使用目标领域中的人类偏好信号来优化模型;以及基于可验证奖励的强化学习(RLVR),它在验证器支持的环境中运行。后者在最近面向推理的后训练中占据主导地位,因为它在特定领域任务(例如,推理)上提供了更强的收益和更高的效率。然而,尽管领域内RL训练取得了可喜的性能,但它仍然需要大量的GPU计算,这仍然是广泛采用的主要障碍。在这项工作中,我们研究了从少量交互中从头开始学习的RLHF在开放环境中的泛化能力,并研究了它明确获得的对话能力是否可以隐式地转移到下游任务,例如数学推理和代码生成,即GRLO。具体来说,在Qwen3-4B-Base主干上,GRLO仅使用5K个提示和22.7个GPU小时,将所有领域的平均性能从24.1提高到63.1,所需数据减少约46倍,计算量减少约68倍,优于强大的领域内RLVR基线。由此产生的模型甚至可以与Qwen发布的后训练模型相媲美,后者需要更大的训练成本。值得注意的是,随后的领域内RLVR阶段仅带来选择性的收益,主要是在更难的竞争性数学基准上。我们希望GRLO为构建具有广泛能力的后训练模型提供一个简单而有效的方案。

🔬 方法详解

问题定义:论文旨在解决领域内强化学习训练(RLVR)计算成本高昂,难以广泛应用的问题。现有方法在特定领域表现良好,但泛化能力不足,难以适应开放环境和多样化任务。

核心思路:论文的核心思路是利用基于人类反馈的强化学习(RLHF),从少量交互中学习通用的对话能力,并将其迁移到下游任务,如数学推理和代码生成。通过这种方式,模型可以获得更强的泛化能力,从而在开放环境中实现更好的性能。

技术框架:GRLO的技术框架主要包括以下几个阶段: 1. 预训练语言模型:使用Qwen3-4B-Base作为基础模型。 2. RLHF训练:使用少量(5K)提示,通过RLHF训练模型,使其具备通用的对话能力。 3. 下游任务评估:在数学推理和代码生成等下游任务上评估模型的性能。 4. 可选的RLVR微调:在特定领域任务上进行RLVR微调,以进一步提升性能。

关键创新:GRLO的关键创新在于探索了RLHF在开放环境中的泛化能力,并证明了通过少量交互学习的对话能力可以有效地迁移到下游任务。与传统的领域内RLVR方法相比,GRLO显著降低了数据和计算需求,同时实现了可比甚至更优的性能。

关键设计:GRLO的关键设计包括: 1. 少量提示:仅使用5K个提示进行RLHF训练,以降低数据成本。 2. Qwen3-4B-Base:选择Qwen3-4B-Base作为基础模型,因为它具有较强的语言理解和生成能力。 3. 跨领域评估:在多个领域(包括数学推理和代码生成)上评估模型的性能,以验证其泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GRLO在Qwen3-4B-Base上,仅使用5K个提示和22.7个GPU小时,将所有领域的平均性能从24.1提高到63.1,所需数据减少约46倍,计算量减少约68倍,优于强大的领域内RLVR基线。其性能甚至可以与Qwen发布的需要更大训练成本的后训练模型相媲美。后续的领域内RLVR阶段仅在更难的竞争性数学基准上带来选择性的收益。

🎯 应用场景

GRLO具有广泛的应用前景,可用于构建具有通用能力的对话模型,应用于智能助手、教育辅导、代码生成等领域。该方法降低了模型训练的成本,使得在资源有限的条件下也能开发出高性能的AI模型,加速了AI技术的普及。

📄 摘要(原文)

Post-training has become a crucial step for unlocking the capabilities of large language models, with reinforcement learning (RL) emerging as a critical paradigm. Recent RL-based post-training has increasingly split into two paradigms: reinforcement learning from human feedback (RLHF), which optimizes models using human preference signals in target domains, and reinforcement learning from verifiable rewards (RLVR), which operates in verifier-backed environments. The latter has dominated recent reasoning-oriented post-training because it delivers stronger gains and higher efficiency on domain-specific tasks (e.g., reasoning). However, although in-domain RL training achieves promising performance, it still requires a substantial amount of GPU compute, which remains a major barrier to broad adoption. In this work, we study the generalization ability of RLHF learned from scratch from a small set of interactions in open-ended environments, and investigate whether the conversational abilities it explicitly acquires can implicitly transfer to downstream tasks such as mathematical reasoning and code generation, namely GRLO. Specifically, on Qwen3-4B-Base backbone, GRLO improves the average performance across all domains from 24.1 to 63.1 with only 5K prompts and 22.7 GPU hours, requiring about $46\times$ less data and $68\times$ less compute than a strong in-domain RLVR baseline. The resulting model is even competitive with Qwen's released post-trained models which required a much larger training cost. Notably, a subsequent in-domain RLVR stage brings only selective gains, mainly on harder competition-math benchmarks. We hope GRLO offers a simple and efficient recipe for building broadly capable post-trained models. Our code and data will be available at: \href{https://github.com/SJY8460/GRLO}{https://github.com/SJY8460/GRLO}.