Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

作者: Chanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang

分类: cs.AI, cs.CL

发布日期: 2026-05-15

备注: 28 pages, 7 figures

🔗 代码/项目: GITHUB

💡 一句话要点

NudgeRL：基于策略引导的高效探索RLVR框架，提升LLM推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 可验证奖励 探索策略 策略引导 大型语言模型

📋 核心要点

RLVR受限于探索，现有方法要么计算成本高，要么对探索的控制有限。
NudgeRL通过策略推动，在轻量级策略上下文中诱导多样化推理轨迹。
NudgeRL在数学基准测试中，优于GRPO和oracle引导的RL基线，证明了其有效性。

📝 摘要（中文）

基于可验证奖励的强化学习（RLVR）已成为提高大型语言模型推理能力的可扩展范例。然而，其有效性受到探索的根本限制：策略只能在已采样的轨迹上改进。增加rollout数量可以缓解这个问题，但这种暴力扩展计算成本高昂，并且现有修改优化目标的方法对探索的控制有限。本文提出了NudgeRL，一个用于RLVR中结构化和多样性驱动探索的框架。我们的方法引入了策略推动（Strategy Nudging），它将每个rollout置于轻量级的策略级上下文中，以诱导多样化的推理轨迹，而无需依赖昂贵的oracle监督。为了有效地从这种结构化探索中学习，我们进一步提出了一个统一的目标，该目标将奖励信号分解为上下文间和上下文内组件，并结合了一个蒸馏目标，将发现的行为转移回基本策略。实验结果表明，NudgeRL优于标准GRPO，其rollout预算高达8倍，并且在五个具有挑战性的数学基准测试中，平均优于oracle引导的RL基线。这些结果表明，结构化的、上下文驱动的探索可以作为暴力rollout扩展和基于特权信息的可行性导向方法的有效且可扩展的替代方案。

🔬 方法详解

问题定义：RLVR旨在提升大型语言模型的推理能力，但其性能受限于探索的效率。简单地增加rollout数量成本过高，而现有的优化目标修改方法无法有效控制探索的方向和多样性。因此，如何高效地探索更有价值的轨迹，是RLVR面临的关键问题。

核心思路：NudgeRL的核心思路是通过“策略推动”（Strategy Nudging）来引导探索过程。它不是随机探索，而是有策略地在不同的上下文中进行探索，从而产生更多样化和有价值的轨迹。同时，通过统一的目标函数，将不同上下文中的学习经验整合起来，提升整体策略性能。

技术框架：NudgeRL框架主要包含以下几个模块：1) 策略推动模块：根据策略级上下文（Strategy-level Contexts）调整rollout策略，生成多样化的轨迹。2) 奖励分解模块：将奖励信号分解为上下文间（Inter-context）和上下文内（Intra-context）两部分，分别进行学习。3) 蒸馏模块：将从不同上下文中学习到的行为知识蒸馏回基础策略，提升泛化能力。整体流程是，首先通过策略推动模块生成多样化的轨迹，然后通过奖励分解模块学习不同上下文中的奖励信号，最后通过蒸馏模块将知识迁移回基础策略。

关键创新：NudgeRL的关键创新在于其结构化的探索方式和统一的学习目标。与传统的随机探索或基于oracle监督的探索方法不同，NudgeRL通过策略推动，在轻量级的策略上下文中引导探索，从而更有效地发现有价值的轨迹。同时，通过奖励分解和蒸馏，能够更好地利用不同上下文中的学习经验，提升整体策略性能。

关键设计：策略推动模块使用轻量级的策略级上下文，例如，在数学问题解决中，可以使用“尝试不同的运算符”或“从不同的角度思考问题”等策略作为上下文。奖励分解模块将奖励信号分解为上下文间和上下文内两部分，分别对应于不同上下文之间的差异和同一上下文内的优化。蒸馏模块使用KL散度作为损失函数，将从不同上下文中学习到的行为知识迁移回基础策略。

🖼️ 关键图片

📊 实验亮点

NudgeRL在五个具有挑战性的数学基准测试中，显著优于标准GRPO，即使GRPO的rollout预算高达NudgeRL的8倍。此外，NudgeRL的性能平均优于oracle引导的RL基线，表明其结构化探索策略能够有效地发现有价值的轨迹，并提升整体策略性能。

🎯 应用场景

NudgeRL可应用于各种需要复杂推理和决策的任务，例如数学问题求解、代码生成、游戏策略等。通过高效的探索和学习，NudgeRL能够提升大型语言模型在这些任务中的性能，使其能够更好地解决实际问题，具有广泛的应用前景。

📄 摘要（原文）

Reinforcement learning with verifiable rewards (RLVR) has emerged as a scalable paradigm for improving the reasoning capabilities of large language models. However, its effectiveness is fundamentally limited by exploration: the policy can only improve on trajectories it has already sampled. While increasing the number of rollouts alleviates this issue, such brute-force scaling is computationally expensive, and existing approaches that modify the optimization objective provide limited control over what is explored. In this work, we propose NudgeRL, a framework for structured and diversity-driven exploration in RLVR. Our approach introduces Strategy Nudging, which conditions each rollout on lightweight, strategy-level contexts to induce diverse reasoning trajectories without relying on expensive oracle supervision. To effectively learn from such structured exploration, we further propose a unified objective, which decomposes the reward signal into inter- and intra-context components and incorporates a distillation objective to transfer discovered behaviors back to the base policy. Empirically, NudgeRL outperforms standard GRPO with up to 8 times larger rollout budgets, while outperforming oracle-guided RL baseline on average across five challenging math benchmarks. These results demonstrate that structured, context-driven exploration can serve as an efficient and scalable alternative to both brute-force rollout scaling and feasibility-oriented methods based on privileged information. Our code is available at https://github.com/tally0818/NudgeRL.

Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理