R^3: Replay, Reflection, and Ranking Rewards for LLM Reinforcement Learning
作者: Zhizheng Jiang, Kang Zhao, Weikai Xu, Xinkui Lin, Wei Liu, Jian Luan, Shuo Shang, Peng Han
分类: cs.LG, cs.AI
发布日期: 2026-01-27
💡 一句话要点
R^3:通过回放、反思和排序奖励提升LLM在复杂推理任务中的强化学习性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 大型语言模型 推理 回放 反思 奖励函数 数学问题求解
📋 核心要点
- 现有基于群体策略优化的LLM强化学习方法,在复杂任务中因组内优势崩溃而面临训练脆弱和效率低下的问题。
- R^3通过跨上下文回放历史经验、上下文自反思以及结构熵排序奖励,提升LLM在复杂推理任务中的强化学习效果。
- 实验表明,R^3在数学基准测试中取得了SoTA性能,显著提升了推理能力,并减少了推理所需的token数量。
📝 摘要(中文)
大型推理模型(LRM)旨在通过结构化推理解决多样且复杂的问题。最近基于群体策略优化方法的进展,展示了在不依赖过程级标注的情况下实现稳定优势估计的潜力。然而,这些方法依赖于同一批次内高质量样本所带来的优势差距,这使得训练过程在具有挑战性的任务中变得脆弱和低效,因为组内优势会崩溃。为了解决这些问题,我们提出了一种名为R^3的强化学习机制,它从三个方向入手:(1)一种跨上下文回放策略,通过回忆同一查询的历史轨迹中的有价值的例子来维持组内优势;(2)一种上下文自反思机制,使模型能够通过利用过去的失败来改进输出;(3)一种结构熵排序奖励,通过基于token级别熵模式对响应进行排序,为截断或失败的样本分配相对奖励,从而捕获局部探索和全局稳定性。我们在Deepseek-R1-Distill-Qwen-1.5B上实施了我们的方法,并在数学领域的DeepscaleR-40k上对其进行了训练。实验表明,我们的方法在多个数学基准测试中实现了SoTA性能,与基础模型相比,代表了显著的改进和更少的推理token。
🔬 方法详解
问题定义:现有基于群体策略优化的大型语言模型强化学习方法,在解决复杂推理问题时,依赖于同一批次内高质量样本带来的优势差距。当任务难度增加时,组内优势容易崩溃,导致训练过程不稳定且效率低下。因此,如何维持组内优势,提升模型在复杂任务中的学习效率和稳定性,是本文要解决的核心问题。
核心思路:本文提出R^3方法,其核心思路是通过引入回放、反思和排序奖励机制,来增强模型在复杂推理任务中的学习能力。具体来说,通过回放历史轨迹中的优质样本来维持组内优势,利用自反思机制从过去的失败中学习,并使用结构熵排序奖励来评估不完整或失败的样本,从而引导模型进行更有效的探索。
技术框架:R^3方法包含三个主要模块:1) 跨上下文回放(Replay):维护一个历史轨迹池,存储同一查询的优质样本,并在训练时进行回放,以维持组内优势。2) 上下文自反思(Reflection):允许模型在生成答案后,根据历史失败案例进行反思,并对答案进行修正。3) 结构熵排序奖励(Ranking Reward):对于被截断或失败的样本,根据token级别的熵模式进行排序,并分配相应的奖励,鼓励模型进行局部探索和全局稳定。
关键创新:R^3的关键创新在于其综合利用了回放、反思和排序奖励三种机制,从而更有效地提升了LLM在复杂推理任务中的强化学习性能。与现有方法相比,R^3不依赖于同一批次内的高质量样本,而是通过回放历史经验、从失败中学习以及对不完整样本进行评估,来增强模型的学习能力。
关键设计:1) 回放策略:维护一个固定大小的经验池,存储历史轨迹中的优质样本,并根据一定的策略(例如,基于奖励值)选择回放样本。2) 自反思机制:使用一个额外的模型来评估生成的答案,并根据评估结果对答案进行修正。3) 结构熵排序奖励:使用token级别的熵值来衡量生成答案的不确定性,并根据熵值对不完整或失败的样本进行排序,分配相应的奖励。
🖼️ 关键图片
📊 实验亮点
实验结果表明,R^3方法在多个数学基准测试中取得了SoTA性能,例如在DeepscaleR-40k数据集上,R^3显著提升了模型的准确率,并减少了推理所需的token数量。与基线模型相比,R^3在性能上取得了显著的提升,证明了该方法的有效性。
🎯 应用场景
R^3方法具有广泛的应用前景,可应用于数学问题求解、代码生成、逻辑推理等需要复杂推理能力的领域。该方法能够提升LLM在这些领域的性能,使其能够更好地解决实际问题。此外,R^3方法还可以应用于教育领域,帮助学生更好地学习和理解复杂概念。
📄 摘要(原文)
Large reasoning models (LRMs) aim to solve diverse and complex problems through structured reasoning. Recent advances in group-based policy optimization methods have shown promise in enabling stable advantage estimation without reliance on process-level annotations. However, these methods rely on advantage gaps induced by high-quality samples within the same batch, which makes the training process fragile and inefficient when intra-group advantages collapse under challenging tasks. To address these problems, we propose a reinforcement learning mechanism named \emph{\textbf{R^3}} that along three directions: (1) a \emph{cross-context \underline{\textbf{R}}eplay} strategy that maintains the intra-group advantage by recalling valuable examples from historical trajectories of the same query, (2) an \emph{in-context self-\underline{\textbf{R}}eflection} mechanism enabling models to refine outputs by leveraging past failures, and (3) a \emph{structural entropy \underline{\textbf{R}}anking reward}, which assigns relative rewards to truncated or failed samples by ranking responses based on token-level entropy patterns, capturing both local exploration and global stability. We implement our method on Deepseek-R1-Distill-Qwen-1.5B and train it on the DeepscaleR-40k in the math domain. Experiments demonstrate our method achieves SoTA performance on several math benchmarks, representing significant improvements and fewer reasoning tokens over the base models. Code and model will be released.