Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration

作者: Wenhao Deng, Long Wei, Chenglei Yu, Tailin Wu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-04 (更新: 2025-10-31)

💡 一句话要点

提出RAPO算法，通过强化学习探索提升LLM在复杂推理任务中的能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 策略优化 KL散度

📋 核心要点

现有RLVR方法在提升LLM推理能力方面存在局限，随着采样预算增加，性能提升逐渐消失，受限于预训练模型的搜索空间。
RAPO算法通过前向KL惩罚鼓励分布外探索，并自适应地调整分布内探索，从而实现更广泛且有针对性的探索。
实验表明，RAPO能够显著提升LLM在AIME2024和AIME2025等数据集上的问题解决能力，超越基线模型性能。

📝 摘要（中文）

本文提出了一种名为奖励感知策略优化（RAPO）的算法，旨在提升大型语言模型（LLM）的推理能力，尤其是在数学问题解决方面。现有的基于可验证奖励的强化学习（RLVR）方法虽然有效，但随着采样预算的增加，其性能优势会逐渐减弱，这表明模型过度依赖预训练模型的搜索空间。作者认为这是由于反向KL散度正则化器的模式搜索行为限制了策略的探索范围。RAPO通过使用前向KL惩罚进行分布外探索，并重新加权参考策略以促进自适应的分布内探索，从而解决这一问题。在SimpleRL-Zero数据集上，使用RAPO训练了Qwen2.5-3B和7B模型，并在AIME2024和AIME2025上进行了评估。实验结果表明，RAPO能够持续提高问题解决性能，超越基础模型的性能上限，并解决以前难以处理的问题。

🔬 方法详解

问题定义：现有基于可验证奖励的强化学习（RLVR）方法在提升LLM推理能力时，过度依赖预训练模型的搜索空间，导致随着采样预算的增加，性能提升逐渐减弱甚至消失。这是因为反向KL散度正则化器的模式搜索行为限制了策略的探索范围，模型难以跳出预训练模型的固有模式。

核心思路：RAPO的核心思路是通过更灵活的策略优化方法，鼓励模型进行更广泛且有针对性的探索。具体来说，RAPO使用前向KL散度惩罚来促进分布外探索，允许模型探索与预训练数据不同的区域。同时，RAPO通过重新加权参考策略，实现自适应的分布内探索，从而在保证探索效率的同时，避免模型偏离合理的策略空间。

技术框架：RAPO算法的整体框架仍然基于强化学习，但其关键在于策略优化阶段。该算法首先使用当前策略生成一系列轨迹，并根据可验证的奖励函数对这些轨迹进行评估。然后，RAPO使用前向KL散度惩罚来鼓励模型探索与参考策略不同的区域。同时，RAPO通过重新加权参考策略，调整分布内探索的力度。最后，RAPO使用优化算法更新策略，使其能够更好地解决推理问题。

关键创新：RAPO最重要的技术创新点在于其使用前向KL散度惩罚进行分布外探索，并重新加权参考策略以促进自适应的分布内探索。与传统的反向KL散度惩罚相比，前向KL散度惩罚能够更有效地鼓励模型探索新的策略空间，从而克服了现有方法对预训练模型搜索空间的依赖。自适应的分布内探索则保证了探索的效率和稳定性。

关键设计：RAPO的关键设计包括：(1) 前向KL散度惩罚的系数，需要根据具体任务进行调整，以平衡探索的广度和稳定性。(2) 参考策略的重加权函数，需要设计成能够自适应地调整分布内探索的力度，例如，可以根据奖励的方差来调整重加权系数。(3) 策略优化算法，可以选择常见的策略梯度算法，如PPO或TRPO，并根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RAPO算法在AIME2024和AIME2025数据集上显著提升了LLM的问题解决能力。例如，使用RAPO训练的Qwen2.5-3B和7B模型能够超越基线模型的性能上限，并解决以前难以处理的问题。具体的性能提升幅度取决于数据集和模型大小，但总体而言，RAPO能够带来显著的性能提升。

🎯 应用场景

RAPO算法具有广泛的应用前景，可以应用于各种需要复杂推理能力的场景，例如数学问题解决、代码生成、知识图谱推理等。该算法能够提升LLM在这些任务上的性能，使其能够解决更复杂的问题，并生成更准确、更可靠的结果。此外，RAPO还可以应用于机器人控制、游戏AI等领域，提升智能体的决策能力。

📄 摘要（原文）

Reinforcement learning with verifiable rewards (RLVR) has recently enhanced the reasoning capabilities of large language models (LLMs), particularly for mathematical problem solving. However, a fundamental limitation remains: as the sampling budget increases, the advantage of RLVR-trained models over their pretrained bases often diminishes or even vanishes, revealing a strong dependence on the base model's restricted search space. We attribute this phenomenon to the widespread use of the reverse Kullback-Leibler (KL) divergence regularizer, whose mode-seeking behavior keeps the policy trapped inside the base model's support region and hampers wider exploration. To address this issue, we propose RAPO (Rewards-Aware Policy Optimization), an algorithm to promote broader yet focused exploration. Our method (i) utilizes the forward KL penalty to replace the reverse KL penalty for out-of-distribution exploration, and (ii) reweights the reference policy to facilitate adaptive in-distribution exploration. We train Qwen2.5-3B and 7B models with RAPO on the 8K SimpleRL-Zero dataset, without supervised fine-tuning, and evaluate them on AIME2024 and AIME2025. Results show that RAPO consistently improves problem-solving performance. Notably, RAPO enables models to surpass the base model's performance ceiling and solves previously intractable problems, advancing the frontier of RLVR for challenging reasoning tasks.

Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理