Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration

📄 arXiv: 2510.03865v2 📥 PDF

作者: Wenhao Deng, Long Wei, Chenglei Yu, Tailin Wu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-04 (更新: 2025-10-31)


💡 一句话要点

提出RAPO算法,通过强化学习探索提升LLM在复杂推理任务中的能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 策略优化 KL散度

📋 核心要点

  1. 现有RLVR方法在提升LLM推理能力方面存在局限,随着采样预算增加,性能提升逐渐消失,受限于预训练模型的搜索空间。
  2. RAPO算法通过前向KL惩罚鼓励分布外探索,并自适应地调整分布内探索,从而实现更广泛且有针对性的探索。
  3. 实验表明,RAPO能够显著提升LLM在AIME2024和AIME2025等数据集上的问题解决能力,超越基线模型性能。

📝 摘要(中文)

本文提出了一种名为奖励感知策略优化(RAPO)的算法,旨在提升大型语言模型(LLM)的推理能力,尤其是在数学问题解决方面。现有的基于可验证奖励的强化学习(RLVR)方法虽然有效,但随着采样预算的增加,其性能优势会逐渐减弱,这表明模型过度依赖预训练模型的搜索空间。作者认为这是由于反向KL散度正则化器的模式搜索行为限制了策略的探索范围。RAPO通过使用前向KL惩罚进行分布外探索,并重新加权参考策略以促进自适应的分布内探索,从而解决这一问题。在SimpleRL-Zero数据集上,使用RAPO训练了Qwen2.5-3B和7B模型,并在AIME2024和AIME2025上进行了评估。实验结果表明,RAPO能够持续提高问题解决性能,超越基础模型的性能上限,并解决以前难以处理的问题。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习(RLVR)方法在提升LLM推理能力时,过度依赖预训练模型的搜索空间,导致随着采样预算的增加,性能提升逐渐减弱甚至消失。这是因为反向KL散度正则化器的模式搜索行为限制了策略的探索范围,模型难以跳出预训练模型的固有模式。

核心思路:RAPO的核心思路是通过更灵活的策略优化方法,鼓励模型进行更广泛且有针对性的探索。具体来说,RAPO使用前向KL散度惩罚来促进分布外探索,允许模型探索与预训练数据不同的区域。同时,RAPO通过重新加权参考策略,实现自适应的分布内探索,从而在保证探索效率的同时,避免模型偏离合理的策略空间。

技术框架:RAPO算法的整体框架仍然基于强化学习,但其关键在于策略优化阶段。该算法首先使用当前策略生成一系列轨迹,并根据可验证的奖励函数对这些轨迹进行评估。然后,RAPO使用前向KL散度惩罚来鼓励模型探索与参考策略不同的区域。同时,RAPO通过重新加权参考策略,调整分布内探索的力度。最后,RAPO使用优化算法更新策略,使其能够更好地解决推理问题。

关键创新:RAPO最重要的技术创新点在于其使用前向KL散度惩罚进行分布外探索,并重新加权参考策略以促进自适应的分布内探索。与传统的反向KL散度惩罚相比,前向KL散度惩罚能够更有效地鼓励模型探索新的策略空间,从而克服了现有方法对预训练模型搜索空间的依赖。自适应的分布内探索则保证了探索的效率和稳定性。

关键设计:RAPO的关键设计包括:(1) 前向KL散度惩罚的系数,需要根据具体任务进行调整,以平衡探索的广度和稳定性。(2) 参考策略的重加权函数,需要设计成能够自适应地调整分布内探索的力度,例如,可以根据奖励的方差来调整重加权系数。(3) 策略优化算法,可以选择常见的策略梯度算法,如PPO或TRPO,并根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAPO算法在AIME2024和AIME2025数据集上显著提升了LLM的问题解决能力。例如,使用RAPO训练的Qwen2.5-3B和7B模型能够超越基线模型的性能上限,并解决以前难以处理的问题。具体的性能提升幅度取决于数据集和模型大小,但总体而言,RAPO能够带来显著的性能提升。

🎯 应用场景

RAPO算法具有广泛的应用前景,可以应用于各种需要复杂推理能力的场景,例如数学问题解决、代码生成、知识图谱推理等。该算法能够提升LLM在这些任务上的性能,使其能够解决更复杂的问题,并生成更准确、更可靠的结果。此外,RAPO还可以应用于机器人控制、游戏AI等领域,提升智能体的决策能力。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has recently enhanced the reasoning capabilities of large language models (LLMs), particularly for mathematical problem solving. However, a fundamental limitation remains: as the sampling budget increases, the advantage of RLVR-trained models over their pretrained bases often diminishes or even vanishes, revealing a strong dependence on the base model's restricted search space. We attribute this phenomenon to the widespread use of the reverse Kullback-Leibler (KL) divergence regularizer, whose mode-seeking behavior keeps the policy trapped inside the base model's support region and hampers wider exploration. To address this issue, we propose RAPO (Rewards-Aware Policy Optimization), an algorithm to promote broader yet focused exploration. Our method (i) utilizes the forward KL penalty to replace the reverse KL penalty for out-of-distribution exploration, and (ii) reweights the reference policy to facilitate adaptive in-distribution exploration. We train Qwen2.5-3B and 7B models with RAPO on the 8K SimpleRL-Zero dataset, without supervised fine-tuning, and evaluate them on AIME2024 and AIME2025. Results show that RAPO consistently improves problem-solving performance. Notably, RAPO enables models to surpass the base model's performance ceiling and solves previously intractable problems, advancing the frontier of RLVR for challenging reasoning tasks.