R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification
作者: Weijie Shi, Yanxi Chen, Zexi Li, Xuchen Pan, Yuchang Sun, Jiajie Xu, Xiaofang Zhou, Yaliang Li
分类: cs.LG, cs.AI
发布日期: 2026-01-07
🔗 代码/项目: GITHUB
💡 一句话要点
R$^3$L:结合语言引导探索、关键信用分配和正向放大,提升强化学习在复杂推理任务中的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 语言引导探索 信用分配 正向放大 智能体 推理任务 大语言模型
📋 核心要点
- 现有强化学习方法在复杂任务中探索效率低,且轨迹级别的奖励机制导致信用分配不准确,影响训练。
- R$^3$L通过语言反馈进行错误诊断和纠正,实现主动探索,并采用关键信用分配和正向放大来稳定训练。
- 实验结果表明,R$^3$L在智能体和推理任务上显著优于基线方法,性能提升高达52%,同时保证训练稳定。
📝 摘要(中文)
强化学习推动了大语言模型推理和智能体能力的发展,但现有方法在探索和利用方面都存在困难。探索面临困难任务的低成功率和重复rollout的高成本。利用面临粗糙的信用分配和训练不稳定:轨迹级别的奖励会因后续错误而惩罚有效的前缀,且失败样本淹没少量正向信号,导致优化缺乏建设性方向。为此,我们提出了R$^3$L,即结合语言引导探索、关键信用分配和正向放大的Reflect-then-Retry强化学习。R$^3$L通过reflect-then-retry将随机抽样转变为主动合成,利用语言反馈诊断错误,将失败尝试转化为成功尝试,并通过从识别出的失败点重新开始来降低rollout成本。通过诊断和定位错误,关键信用分配仅更新存在对比信号的发散后缀,排除共享前缀的梯度更新。由于失败在困难任务中占主导地位,且reflect-then-retry产生off-policy数据,存在训练不稳定风险,正向放大对成功轨迹进行加权,以确保正向信号引导优化过程。在智能体和推理任务上的实验表明,相对于基线方法,性能提升了5%到52%,同时保持了训练稳定性。代码已发布在https://github.com/shiweijiezero/R3L。
🔬 方法详解
问题定义:现有强化学习方法在复杂任务中面临探索效率低下的问题。由于任务难度高,智能体很难找到成功的轨迹,导致训练数据中充斥着失败的尝试。此外,传统的轨迹级别奖励机制会将后续步骤的错误归咎于整个轨迹,即使轨迹的前缀部分是正确的,也会受到惩罚,导致信用分配不准确。这种粗糙的信用分配方式阻碍了智能体学习有效的策略。
核心思路:R$^3$L的核心思路是通过引入语言反馈机制来指导智能体的探索过程,并采用更精细的信用分配策略来解决现有方法的不足。具体来说,R$^3$L利用语言模型对失败的轨迹进行分析,诊断错误的原因,并指导智能体从失败点重新开始尝试,从而提高探索效率。同时,R$^3$L只更新导致轨迹发散的后缀部分,避免对正确的前缀进行不必要的惩罚。此外,为了解决off-policy数据带来的训练不稳定问题,R$^3$L对成功的轨迹进行加权,确保正向信号能够引导优化过程。
技术框架:R$^3$L包含三个主要模块:Reflect-then-Retry、Pivotal Credit Assignment和Positive Amplification。Reflect-then-Retry模块利用语言模型对失败轨迹进行反思,生成改进建议,并从失败点重新开始尝试。Pivotal Credit Assignment模块只更新轨迹中导致发散的后缀部分,避免对正确的前缀进行惩罚。Positive Amplification模块对成功的轨迹进行加权,确保正向信号能够引导优化过程。整体流程是:智能体首先进行探索,如果轨迹失败,则通过Reflect-then-Retry模块进行改进,然后使用Pivotal Credit Assignment模块进行信用分配,最后通过Positive Amplification模块进行训练。
关键创新:R$^3$L的关键创新在于将语言反馈融入到强化学习的探索过程中,并提出了关键信用分配和正向放大两种新的训练策略。与传统的随机探索方法相比,R$^3$L能够更有效地利用语言信息来指导智能体找到成功的轨迹。与传统的轨迹级别奖励机制相比,R$^3$L的关键信用分配能够更准确地评估每个步骤的贡献,避免对正确行为的惩罚。与传统的强化学习方法相比,R$^3$L的正向放大能够更好地处理off-policy数据,保证训练的稳定性。
关键设计:Reflect-then-Retry模块使用预训练的语言模型来分析失败轨迹,并生成改进建议。Pivotal Credit Assignment模块通过比较成功轨迹和失败轨迹来确定轨迹的发散点,并只更新发散点之后的参数。Positive Amplification模块使用一个权重系数来对成功轨迹进行加权,该系数可以根据任务的难度进行调整。损失函数采用标准的强化学习损失函数,例如PPO或SAC。
📊 实验亮点
实验结果表明,R$^3$L在智能体和推理任务上显著优于基线方法。例如,在某个具体任务上,R$^3$L相对于最佳基线方法,性能提升了5%到52%。此外,实验还证明了R$^3$L能够有效地解决训练不稳定问题,保证了训练过程的稳定性和可靠性。
🎯 应用场景
R$^3$L具有广泛的应用前景,可以应用于各种需要复杂推理和决策的任务中,例如机器人控制、游戏AI、自然语言处理等。该方法能够提高智能体在复杂环境中的学习效率和性能,使其能够更好地解决实际问题。未来,R$^3$L可以进一步扩展到多智能体环境和更复杂的任务中。
📄 摘要(原文)
Reinforcement learning drives recent advances in LLM reasoning and agentic capabilities, yet current approaches struggle with both exploration and exploitation. Exploration suffers from low success rates on difficult tasks and high costs of repeated rollouts from scratch. Exploitation suffers from coarse credit assignment and training instability: Trajectory-level rewards penalize valid prefixes for later errors, and failure-dominated groups overwhelm the few positive signals, leaving optimization without constructive direction. To this end, we propose R$^3$L, Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification. To synthesize high-quality trajectories, R$^3$L shifts from stochastic sampling to active synthesis via reflect-then-retry, leveraging language feedback to diagnose errors, transform failed attempts into successful ones, and reduce rollout costs by restarting from identified failure points. With errors diagnosed and localized, Pivotal Credit Assignment updates only the diverging suffix where contrastive signals exist, excluding the shared prefix from gradient update. Since failures dominate on difficult tasks and reflect-then-retry produces off-policy data, risking training instability, Positive Amplification upweights successful trajectories to ensure positive signals guide the optimization process. Experiments on agentic and reasoning tasks demonstrate 5\% to 52\% relative improvements over baselines while maintaining training stability. Our code is released at https://github.com/shiweijiezero/R3L.