GRLO: Towards Generalizable Reinforcement Learning in Open-Ended Environments from Zero

作者: Shangjian Yin, Yu Fu, Yue Dong, Zhouxing Shi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-14

🔗 代码/项目: GITHUB

💡 一句话要点

GRLO：探索从零开始在开放环境中实现通用强化学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 开放环境 泛化能力 对话模型 后训练 语言模型

📋 核心要点

现有领域内强化学习训练（RLVR）虽然性能优异，但计算成本高昂，阻碍了广泛应用。
GRLO探索了从少量交互中学习的RLHF在开放环境中的泛化能力，利用对话能力迁移到下游任务。
实验表明，GRLO在Qwen3-4B-Base上显著提升了跨领域平均性能，同时大幅降低了数据和计算需求。

📝 摘要（中文）

后训练已成为释放大型语言模型能力的关键步骤，其中强化学习（RL）是重要的范例。最近基于RL的后训练日益分为两种范式：基于人类反馈的强化学习（RLHF），它使用目标领域中的人类偏好信号来优化模型；以及基于可验证奖励的强化学习（RLVR），它在验证器支持的环境中运行。后者在最近面向推理的后训练中占据主导地位，因为它在特定领域任务（例如，推理）上提供了更强的收益和更高的效率。然而，尽管领域内RL训练取得了可喜的性能，但它仍然需要大量的GPU计算，这仍然是广泛采用的主要障碍。在这项工作中，我们研究了从少量交互中从头开始学习的RLHF在开放环境中的泛化能力，并研究了它明确获得的对话能力是否可以隐式地转移到下游任务，例如数学推理和代码生成，即GRLO。具体来说，在Qwen3-4B-Base主干上，GRLO仅使用5K个提示和22.7个GPU小时，将所有领域的平均性能从24.1提高到63.1，所需数据减少约46倍，计算量减少约68倍，优于强大的领域内RLVR基线。由此产生的模型甚至可以与Qwen发布的后训练模型相媲美，后者需要更大的训练成本。值得注意的是，随后的领域内RLVR阶段仅带来选择性的收益，主要是在更难的竞争性数学基准上。我们希望GRLO为构建具有广泛能力的后训练模型提供一个简单而有效的方案。

🔬 方法详解

问题定义：论文旨在解决领域内强化学习训练（RLVR）计算成本高昂，难以广泛应用的问题。现有方法在特定领域表现良好，但泛化能力不足，难以适应开放环境和多样化任务。

核心思路：论文的核心思路是利用基于人类反馈的强化学习（RLHF），从少量交互中学习通用的对话能力，并将其迁移到下游任务，如数学推理和代码生成。通过这种方式，模型可以获得更强的泛化能力，从而在开放环境中实现更好的性能。

技术框架：GRLO的技术框架主要包括以下几个阶段： 1. 预训练语言模型：使用Qwen3-4B-Base作为基础模型。 2. RLHF训练：使用少量（5K）提示，通过RLHF训练模型，使其具备通用的对话能力。 3. 下游任务评估：在数学推理和代码生成等下游任务上评估模型的性能。 4. 可选的RLVR微调：在特定领域任务上进行RLVR微调，以进一步提升性能。

关键创新：GRLO的关键创新在于探索了RLHF在开放环境中的泛化能力，并证明了通过少量交互学习的对话能力可以有效地迁移到下游任务。与传统的领域内RLVR方法相比，GRLO显著降低了数据和计算需求，同时实现了可比甚至更优的性能。

关键设计：GRLO的关键设计包括： 1. 少量提示：仅使用5K个提示进行RLHF训练，以降低数据成本。 2. Qwen3-4B-Base：选择Qwen3-4B-Base作为基础模型，因为它具有较强的语言理解和生成能力。 3. 跨领域评估：在多个领域（包括数学推理和代码生成）上评估模型的性能，以验证其泛化能力。

🖼️ 关键图片

📊 实验亮点

GRLO在Qwen3-4B-Base上，仅使用5K个提示和22.7个GPU小时，将所有领域的平均性能从24.1提高到63.1，所需数据减少约46倍，计算量减少约68倍，优于强大的领域内RLVR基线。其性能甚至可以与Qwen发布的需要更大训练成本的后训练模型相媲美。后续的领域内RLVR阶段仅在更难的竞争性数学基准上带来选择性的收益。

🎯 应用场景

GRLO具有广泛的应用前景，可用于构建具有通用能力的对话模型，应用于智能助手、教育辅导、代码生成等领域。该方法降低了模型训练的成本，使得在资源有限的条件下也能开发出高性能的AI模型，加速了AI技术的普及。

📄 摘要（原文）

Post-training has become a crucial step for unlocking the capabilities of large language models, with reinforcement learning (RL) emerging as a critical paradigm. Recent RL-based post-training has increasingly split into two paradigms: reinforcement learning from human feedback (RLHF), which optimizes models using human preference signals in target domains, and reinforcement learning from verifiable rewards (RLVR), which operates in verifier-backed environments. The latter has dominated recent reasoning-oriented post-training because it delivers stronger gains and higher efficiency on domain-specific tasks (e.g., reasoning). However, although in-domain RL training achieves promising performance, it still requires a substantial amount of GPU compute, which remains a major barrier to broad adoption. In this work, we study the generalization ability of RLHF learned from scratch from a small set of interactions in open-ended environments, and investigate whether the conversational abilities it explicitly acquires can implicitly transfer to downstream tasks such as mathematical reasoning and code generation, namely GRLO. Specifically, on Qwen3-4B-Base backbone, GRLO improves the average performance across all domains from 24.1 to 63.1 with only 5K prompts and 22.7 GPU hours, requiring about $46\times$ less data and $68\times$ less compute than a strong in-domain RLVR baseline. The resulting model is even competitive with Qwen's released post-trained models which required a much larger training cost. Notably, a subsequent in-domain RLVR stage brings only selective gains, mainly on harder competition-math benchmarks. We hope GRLO offers a simple and efficient recipe for building broadly capable post-trained models. Our code and data will be available at: \href{https://github.com/SJY8460/GRLO}{https://github.com/SJY8460/GRLO}.

GRLO: Towards Generalizable Reinforcement Learning in Open-Ended Environments from Zero

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理