Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

📄 arXiv: 2605.15726v1 📥 PDF

作者: Chanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang

分类: cs.AI, cs.CL

发布日期: 2026-05-15

备注: 28 pages, 7 figures

🔗 代码/项目: GITHUB


💡 一句话要点

NudgeRL:基于策略引导的高效探索RLVR框架,提升LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 可验证奖励 探索策略 策略引导 大型语言模型

📋 核心要点

  1. RLVR受限于探索,现有方法要么计算成本高,要么对探索的控制有限。
  2. NudgeRL通过策略推动,在轻量级策略上下文中诱导多样化推理轨迹。
  3. NudgeRL在数学基准测试中,优于GRPO和oracle引导的RL基线,证明了其有效性。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)已成为提高大型语言模型推理能力的可扩展范例。然而,其有效性受到探索的根本限制:策略只能在已采样的轨迹上改进。增加rollout数量可以缓解这个问题,但这种暴力扩展计算成本高昂,并且现有修改优化目标的方法对探索的控制有限。本文提出了NudgeRL,一个用于RLVR中结构化和多样性驱动探索的框架。我们的方法引入了策略推动(Strategy Nudging),它将每个rollout置于轻量级的策略级上下文中,以诱导多样化的推理轨迹,而无需依赖昂贵的oracle监督。为了有效地从这种结构化探索中学习,我们进一步提出了一个统一的目标,该目标将奖励信号分解为上下文间和上下文内组件,并结合了一个蒸馏目标,将发现的行为转移回基本策略。实验结果表明,NudgeRL优于标准GRPO,其rollout预算高达8倍,并且在五个具有挑战性的数学基准测试中,平均优于oracle引导的RL基线。这些结果表明,结构化的、上下文驱动的探索可以作为暴力rollout扩展和基于特权信息的可行性导向方法的有效且可扩展的替代方案。

🔬 方法详解

问题定义:RLVR旨在提升大型语言模型的推理能力,但其性能受限于探索的效率。简单地增加rollout数量成本过高,而现有的优化目标修改方法无法有效控制探索的方向和多样性。因此,如何高效地探索更有价值的轨迹,是RLVR面临的关键问题。

核心思路:NudgeRL的核心思路是通过“策略推动”(Strategy Nudging)来引导探索过程。它不是随机探索,而是有策略地在不同的上下文中进行探索,从而产生更多样化和有价值的轨迹。同时,通过统一的目标函数,将不同上下文中的学习经验整合起来,提升整体策略性能。

技术框架:NudgeRL框架主要包含以下几个模块:1) 策略推动模块:根据策略级上下文(Strategy-level Contexts)调整rollout策略,生成多样化的轨迹。2) 奖励分解模块:将奖励信号分解为上下文间(Inter-context)和上下文内(Intra-context)两部分,分别进行学习。3) 蒸馏模块:将从不同上下文中学习到的行为知识蒸馏回基础策略,提升泛化能力。整体流程是,首先通过策略推动模块生成多样化的轨迹,然后通过奖励分解模块学习不同上下文中的奖励信号,最后通过蒸馏模块将知识迁移回基础策略。

关键创新:NudgeRL的关键创新在于其结构化的探索方式和统一的学习目标。与传统的随机探索或基于oracle监督的探索方法不同,NudgeRL通过策略推动,在轻量级的策略上下文中引导探索,从而更有效地发现有价值的轨迹。同时,通过奖励分解和蒸馏,能够更好地利用不同上下文中的学习经验,提升整体策略性能。

关键设计:策略推动模块使用轻量级的策略级上下文,例如,在数学问题解决中,可以使用“尝试不同的运算符”或“从不同的角度思考问题”等策略作为上下文。奖励分解模块将奖励信号分解为上下文间和上下文内两部分,分别对应于不同上下文之间的差异和同一上下文内的优化。蒸馏模块使用KL散度作为损失函数,将从不同上下文中学习到的行为知识迁移回基础策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NudgeRL在五个具有挑战性的数学基准测试中,显著优于标准GRPO,即使GRPO的rollout预算高达NudgeRL的8倍。此外,NudgeRL的性能平均优于oracle引导的RL基线,表明其结构化探索策略能够有效地发现有价值的轨迹,并提升整体策略性能。

🎯 应用场景

NudgeRL可应用于各种需要复杂推理和决策的任务,例如数学问题求解、代码生成、游戏策略等。通过高效的探索和学习,NudgeRL能够提升大型语言模型在这些任务中的性能,使其能够更好地解决实际问题,具有广泛的应用前景。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has emerged as a scalable paradigm for improving the reasoning capabilities of large language models. However, its effectiveness is fundamentally limited by exploration: the policy can only improve on trajectories it has already sampled. While increasing the number of rollouts alleviates this issue, such brute-force scaling is computationally expensive, and existing approaches that modify the optimization objective provide limited control over what is explored. In this work, we propose NudgeRL, a framework for structured and diversity-driven exploration in RLVR. Our approach introduces Strategy Nudging, which conditions each rollout on lightweight, strategy-level contexts to induce diverse reasoning trajectories without relying on expensive oracle supervision. To effectively learn from such structured exploration, we further propose a unified objective, which decomposes the reward signal into inter- and intra-context components and incorporates a distillation objective to transfer discovered behaviors back to the base policy. Empirically, NudgeRL outperforms standard GRPO with up to 8 times larger rollout budgets, while outperforming oracle-guided RL baseline on average across five challenging math benchmarks. These results demonstrate that structured, context-driven exploration can serve as an efficient and scalable alternative to both brute-force rollout scaling and feasibility-oriented methods based on privileged information. Our code is available at https://github.com/tally0818/NudgeRL.