OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning

📄 arXiv: 2604.18530v1 📥 PDF

作者: Xinyu Ma, Mingzhou Xu, Xuebo Liu, Chang Jin, Qiang Wang, Derek F. Wong, Min Zhang

分类: cs.AI

发布日期: 2026-04-20

🔗 代码/项目: GITHUB


💡 一句话要点

提出OGER,通过离线引导探索奖励解决混合强化学习中探索不足问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 探索奖励 离线指导 大型语言模型 数学推理

📋 核心要点

  1. 现有RLVR方法难以探索初始潜在空间之外的轨迹,限制了模型性能。
  2. OGER框架通过多教师协同训练和熵驱动的探索奖励,鼓励模型自主探索。
  3. 实验表明,OGER在数学推理和领域外泛化方面均优于现有方法。

📝 摘要(中文)

近年来,基于可验证奖励的强化学习(RLVR)显著提升了大型语言模型(LLM)的推理能力,但模型常常难以探索初始潜在空间之外的新轨迹。虽然离线教师指导和熵驱动策略已被提出,但它们通常缺乏深度集成或受限于模型固有能力。本文提出了OGER,一个新颖的框架,通过专门的奖励建模视角统一了离线教师指导和在线强化学习。OGER采用多教师协同训练,并构建了一个辅助探索奖励,该奖励利用离线轨迹和模型自身的熵来激励自主探索。在数学和通用推理基准上的大量实验表明,OGER显著优于竞争基线,在数学推理方面取得了显著提升,同时保持了对领域外任务的鲁棒泛化能力。我们对训练动态进行了全面分析,并进行了详细的消融研究,以验证我们提出的熵感知奖励调节的有效性。代码已开源。

🔬 方法详解

问题定义:现有基于强化学习的大语言模型在推理任务中,面临探索空间不足的问题。模型容易陷入局部最优,难以发现更优的解题路径。离线教师指导和熵驱动的探索策略虽然有所帮助,但缺乏有效的集成,并且模型的能力上限依然受限。

核心思路:OGER的核心思路是结合离线教师指导和在线强化学习,通过构建一个辅助的探索奖励来激励模型进行自主探索。该奖励不仅考虑了离线轨迹的指导,还利用了模型自身的熵,鼓励模型探索不确定性高的区域。

技术框架:OGER框架包含以下几个主要模块:1) 多教师协同训练模块:利用多个离线数据集训练多个教师模型,提供多样化的指导信号。2) 奖励建模模块:构建一个奖励函数,该函数结合了来自教师模型的指导信号和模型自身的熵。3) 强化学习训练模块:使用强化学习算法,根据奖励函数训练模型,鼓励模型进行自主探索。

关键创新:OGER的关键创新在于其熵感知的探索奖励。传统的探索奖励往往只关注模型行为的随机性,而OGER的探索奖励则更加关注模型的不确定性。通过鼓励模型探索不确定性高的区域,OGER可以更有效地引导模型发现新的解题路径。

关键设计:OGER的关键设计包括:1) 多教师模型的选择和训练策略。2) 奖励函数中教师指导信号和熵的权重设置。3) 强化学习算法的选择和参数调整。具体而言,损失函数的设计需要平衡模仿学习和强化学习的目标,同时需要仔细调整熵的权重,以避免过度探索或探索不足。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OGER在数学推理基准上取得了显著的性能提升,超越了现有的基线方法。具体而言,OGER在数学推理任务上取得了超过10%的绝对性能提升,并且在领域外泛化任务上保持了良好的性能。消融实验验证了熵感知奖励调节的有效性。

🎯 应用场景

OGER框架可应用于各种需要复杂推理和决策的任务,例如数学问题求解、代码生成、游戏AI等。通过提高模型的探索能力,OGER可以帮助模型更好地解决实际问题,并提升模型的泛化能力。该方法在教育、科研、工业等领域具有广泛的应用前景。

📄 摘要(原文)

Recent advancements in Reinforcement Learning with Verifiable Rewards (RLVR) have significantly improved Large Language Model (LLM) reasoning, yet models often struggle to explore novel trajectories beyond their initial latent space. While offline teacher guidance and entropy-driven strategies have been proposed to address this, they often lack deep integration or are constrained by the model's inherent capacity. In this paper, we propose OGER, a novel framework that unifies offline teacher guidance and online reinforcement learning through a specialized reward modeling lens. OGER employs multi-teacher collaborative training and constructs an auxiliary exploration reward that leverages both offline trajectories and the model's own entropy to incentivize autonomous exploration. Extensive experiments across mathematical and general reasoning benchmarks demonstrate that OGER significantly outperforms competitive baselines, achieving substantial gains in mathematical reasoning while maintaining robust generalization to out-of-domain tasks. We provide a comprehensive analysis of training dynamics and conduct detailed ablation studies to validate the effectiveness of our entropy-aware reward modulation. Our code is available at https://github.com/ecoli-hit/OGER.git.