Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
作者: Chengqi Lyu, Songyang Gao, Yuzhe Gu, Wenwei Zhang, Jianfei Gao, Kuikun Liu, Ziyi Wang, Shuaibin Li, Qian Zhao, Haian Huang, Weihan Cao, Jiangning Liu, Hongwei Liu, Junnan Liu, Songyang Zhang, Dahua Lin, Kai Chen
分类: cs.CL, cs.LG
发布日期: 2025-02-10
备注: We released our code, data, and model on https://github.com/InternLM/OREAL
🔗 代码/项目: GITHUB
💡 一句话要点
OREAL:探索基于结果奖励的强化学习在数学推理中的极限
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 数学推理 结果奖励 行为克隆 KL正则化 稀疏奖励 长链思维
📋 核心要点
- 现有数学推理模型依赖复杂技术,细节未公开,且面临奖励稀疏和长链推理部分正确性的挑战。
- OREAL框架通过二元结果奖励,结合最佳N选1抽样和行为克隆,学习KL正则化最优策略。
- 实验表明,OREAL显著提升了数学推理性能,7B模型达到甚至超越了以往的32B模型。
📝 摘要(中文)
推理能力,特别是解决复杂数学问题的能力,是通用智能的关键组成部分。OpenAI的o系列模型等公司在推理任务上取得了显著进展。然而,完整的技术细节尚未公开,目前认为采用的技术只有强化学习(RL)和长链思维。本文提出了一个新的RL框架,名为OREAL,旨在探索基于结果奖励的强化学习在数学推理任务中能够达到的性能极限,其中只有二元结果奖励容易获得。我们从理论上证明,在最佳N选1(BoN)抽样的正向轨迹上进行行为克隆足以学习二元反馈环境中的KL正则化最优策略。该公式进一步表明,应该重塑负样本的奖励,以确保正样本和负样本之间的梯度一致性。为了缓解RL中稀疏奖励带来的长期困难,以及推理任务中长链思维的部分正确性所加剧的困难,我们进一步应用token级别的奖励模型来采样推理轨迹中的重要token以进行学习。借助OREAL,一个7B模型首次通过RL在MATH-500上获得了94.0的pass@1准确率,与32B模型相当。OREAL-32B也超过了之前通过蒸馏训练的32B模型,在MATH-500上获得了95.0的pass@1准确率。我们的研究还表明了初始策略模型和训练查询对于RL的重要性。代码、模型和数据将发布以供未来研究。
🔬 方法详解
问题定义:论文旨在解决数学推理任务中,仅能获取二元结果奖励(正确或错误)时,如何有效利用强化学习提升模型性能的问题。现有方法面临奖励稀疏,以及长链思维中部分正确性带来的干扰,导致学习效率低下。
核心思路:论文的核心思路是利用基于结果的奖励信号,通过最佳N选1(BoN)抽样和行为克隆,学习KL正则化最优策略。通过重塑负样本的奖励,确保正负样本之间的梯度一致性,从而更有效地进行学习。
技术框架:OREAL框架包含以下主要模块:1) 初始策略模型:提供一个初步的推理能力。2) BoN抽样:从多个推理轨迹中选择最佳轨迹。3) 行为克隆:在最佳轨迹上进行行为克隆,学习策略。4) 奖励重塑:调整负样本的奖励,保证梯度一致性。5) Token级别奖励模型:用于采样重要token,缓解奖励稀疏问题。
关键创新:最重要的技术创新点在于理论证明了在二元反馈环境中,通过BoN抽样的正向轨迹进行行为克隆,足以学习KL正则化最优策略。同时,通过奖励重塑保证了正负样本梯度的一致性,提升了学习效率。
关键设计:论文使用了KL正则化来约束策略的学习,防止过拟合。Token级别的奖励模型用于采样推理轨迹中的重要token,缓解奖励稀疏问题。BoN抽样的数量N是一个关键参数,需要根据具体任务进行调整。损失函数的设计需要考虑正负样本的平衡,以及梯度一致性的保证。
🖼️ 关键图片
📊 实验亮点
OREAL框架在MATH-500数据集上取得了显著成果。7B模型首次通过RL达到了94.0的pass@1准确率,与32B模型相当。OREAL-32B模型更是超越了以往通过蒸馏训练的32B模型,达到了95.0的pass@1准确率,证明了该方法的有效性。
🎯 应用场景
该研究成果可应用于各种需要复杂推理能力的场景,例如自动定理证明、代码生成、以及智能客服等。通过OREAL框架,可以利用廉价的二元反馈信号,训练出高性能的推理模型,降低了训练成本,并为通用人工智能的发展提供了新的思路。
📄 摘要(原文)
Reasoning abilities, especially those for solving complex math problems, are crucial components of general intelligence. Recent advances by proprietary companies, such as o-series models of OpenAI, have made remarkable progress on reasoning tasks. However, the complete technical details remain unrevealed, and the techniques that are believed certainly to be adopted are only reinforcement learning (RL) and the long chain of thoughts. This paper proposes a new RL framework, termed OREAL, to pursue the performance limit that can be achieved through \textbf{O}utcome \textbf{RE}w\textbf{A}rd-based reinforcement \textbf{L}earning for mathematical reasoning tasks, where only binary outcome rewards are easily accessible. We theoretically prove that behavior cloning on positive trajectories from best-of-N (BoN) sampling is sufficient to learn the KL-regularized optimal policy in binary feedback environments. This formulation further implies that the rewards of negative samples should be reshaped to ensure the gradient consistency between positive and negative samples. To alleviate the long-existing difficulties brought by sparse rewards in RL, which are even exacerbated by the partial correctness of the long chain of thought for reasoning tasks, we further apply a token-level reward model to sample important tokens in reasoning trajectories for learning. With OREAL, for the first time, a 7B model can obtain 94.0 pass@1 accuracy on MATH-500 through RL, being on par with 32B models. OREAL-32B also surpasses previous 32B models trained by distillation with 95.0 pass@1 accuracy on MATH-500. Our investigation also indicates the importance of initial policy models and training queries for RL. Code, models, and data will be released to benefit future research\footnote{https://github.com/InternLM/OREAL}.