GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning

📄 arXiv: 2507.10628v2 📥 PDF

作者: Ziru Liu, Cheng Gong, Xinyu Fu, Yaofang Liu, Ran Chen, Shoubo Hu, Suiyun Zhang, Rui Liu, Qingfu Zhang, Dandan Tu

分类: cs.LG, cs.AI

发布日期: 2025-07-14 (更新: 2025-07-16)

备注: Code avaiable at https://github.com/hkgc-1/GHPO


💡 一句话要点

提出GHPO:自适应引导的稳定高效LLM强化学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 自适应学习 课程学习 推理任务

📋 核心要点

  1. 现有on-policy强化学习方法在训练LLM时面临训练不稳定和效率低下的问题,源于模型能力与训练数据难度不匹配。
  2. GHPO通过自适应提示细化动态调整任务难度,平衡模仿学习和探索式强化学习,构建平滑优化的学习课程。
  3. 实验表明,GHPO在多个数学基准测试中性能提升约5%,优于现有方法,并显著提高了训练稳定性和推理性能。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)已成为促进大型语言模型(LLM)自我提升的强大范例,尤其是在复杂推理任务领域。然而,目前流行的on-policy强化学习方法常常面临显著的训练不稳定性和低效率问题。这主要是由于能力-难度不匹配,即训练数据的复杂性经常超过模型当前的能力,导致奖励信号严重稀疏和学习停滞。对于较小、资源效率更高的LLM,这一挑战尤为严峻。为了克服这个问题,我们引入了引导混合策略优化(GHPO),这是一种新颖的难度感知强化学习框架。GHPO通过采用自适应提示细化来动态校准任务难度,从而提供有针对性的指导。这种独特的方法自适应地平衡了直接模仿学习(针对模型当前无法解决的问题)和基于探索的强化学习(针对更易于管理的任务),从而有效地创建了平滑且优化的学习课程。大量实验表明,GHPO在六个具有挑战性的数学基准测试中实现了平均约5%的性能提升,始终优于强大的on-policy强化学习和课程学习基线。进一步的分析证实,我们的框架显著提高了训练稳定性和最终推理性能,从而为开发强大而稳健的推理模型提供了一种可扩展且高效的解决方案。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在复杂推理任务中,使用on-policy强化学习进行自提升时遇到的训练不稳定和效率低下的问题。现有方法的痛点在于,当训练数据难度超过模型能力时,奖励信号会变得稀疏,导致学习停滞,尤其对于资源受限的小型LLM。

核心思路:论文的核心思路是设计一种难度感知的强化学习框架,通过动态调整任务难度来引导模型的学习过程。具体而言,通过自适应地细化提示(prompt),将任务分解为模型当前能力可及的子任务,并逐步增加难度,从而避免模型因面对过于困难的任务而无法获得有效的奖励信号。

技术框架:GHPO (Guided Hybrid Policy Optimization) 框架包含以下主要模块:1) 奖励模型:用于评估模型生成的答案的质量,提供强化学习的奖励信号。2) 策略模型:待训练的LLM,负责生成答案。3) 提示细化模块:根据策略模型的表现,自适应地调整提示的难度,生成不同难度的训练样本。4) 混合策略优化器:结合模仿学习和强化学习,平衡利用专家知识和探索未知领域。

关键创新:GHPO的关键创新在于其自适应提示细化机制。与传统的课程学习方法不同,GHPO不是预先定义一个固定的难度递增的课程,而是根据模型在训练过程中的实际表现,动态地调整提示的难度。这种自适应性使得GHPO能够更好地适应不同模型的学习能力,从而提高训练效率和稳定性。

关键设计:GHPO的关键设计包括:1) 提示细化策略:采用基于模型置信度的提示细化策略,当模型对当前任务的置信度较低时,降低提示的难度;反之,则提高难度。2) 混合损失函数:结合模仿学习损失和强化学习损失,通过调整两者的权重来平衡利用专家知识和探索未知领域。3) 奖励函数设计:设计能够有效区分正确答案和错误答案的奖励函数,为强化学习提供有效的指导信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GHPO在六个具有挑战性的数学基准测试中,平均性能提升约5%,显著优于传统的on-policy强化学习方法和课程学习方法。例如,在MATH数据集上,GHPO的准确率提升了4.8%。此外,实验还证明GHPO能够显著提高训练的稳定性,减少训练过程中的波动,并最终获得更高的推理性能。

🎯 应用场景

GHPO框架具有广泛的应用前景,可用于提升LLM在各种复杂推理任务中的能力,例如数学问题求解、代码生成、逻辑推理等。该研究有助于开发更强大、更高效的LLM,并推动人工智能在教育、科研、工程等领域的应用。此外,GHPO的自适应难度调整思想也可应用于其他机器学习任务,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a powerful paradigm for facilitating the self-improvement of large language models (LLMs), particularly in the domain of complex reasoning tasks. However, prevailing on-policy RL methods often contend with significant training instability and inefficiency. This is primarily due to a capacity-difficulty mismatch, where the complexity of training data frequently outpaces the model's current capabilities, leading to critically sparse reward signals and stalled learning progress. This challenge is particularly acute for smaller, more resource-efficient LLMs. To overcome this, we introduce the Guided Hybrid Policy Optimization (GHPO), a novel difficulty-aware reinforcement learning framework. GHPO dynamically calibrates task difficulty by employing adaptive prompt refinement to provide targeted guidance. This unique approach adaptively balances direct imitation learning for problems currently beyond the model's reach with exploration-based reinforcement learning for more manageable tasks, effectively creating a smooth and optimized learning curriculum. Extensive experiments demonstrate that GHPO achieves an average performance gain of approximately 5% across six challenging mathematics benchmarks, consistently outperforming strong on-policy reinforcement learning and curriculum learning baselines. Further analysis confirms that our framework significantly enhances both training stability and final reasoning performance, thus offering a scalable and efficient solution for developing powerful and robust reasoning models.