EchoRL: Reinforcement Learning via Rollout Echoing

📄 arXiv: 2605.31228v1 📥 PDF

作者: Jinhe Bi, Aniri, Minglai Yang, Xingcheng Zhou, Wenke Huang, Sikuan Yan, Yujun Wang, Zixuan Cao, Michael Färber, Xun Xiao, Volker Tresp, Yunpu Ma

分类: cs.LG, cs.AI

发布日期: 2026-05-29

备注: ICML 2026


💡 一句话要点

EchoRL:通过回声式Rollout增强强化学习,解决奖励退化问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 奖励可验证 大型语言模型 策略梯度 Rollout 后训练

📋 核心要点

  1. 现有RLVR方法在训练后期面临奖励退化问题,大量rollout显示验证成功,导致学习信号消失。
  2. EchoRL通过分析专家轨迹的熵模式,从优势退化的rollout中提取EchoClip作为辅助监督信号。
  3. 实验表明,EchoRL在多个基准测试和LLM上,能有效提升RLVR后训练的性能,且开销很小。

📝 摘要(中文)

本文提出了一种名为EchoRL的轻量级模块,旨在解决强化学习中奖励可验证(RLVR)训练后期学习信号崩溃的问题。在训练过程中,越来越多的prompt的rollout表现出优势退化,即所有自生成的rollout都显示验证成功,导致奖励的标准差为零,进而使得优势函数也退化为零,最终导致模型优化的策略梯度消失,限制了训练性能。EchoRL通过分析外部专家模型产生的黄金轨迹背后的熵模式,从验证成功的rollout中识别出EchoClip,并将其作为辅助监督信号反馈到RL目标中,从而更好地利用这些优势退化的rollout。在10个基准测试、5个LLM骨干网络和4种流行的RLVR后训练方法上的大量实验表明,EchoRL能够以最小的开销持续改进RLVR后训练。

🔬 方法详解

问题定义:论文旨在解决强化学习中,特别是使用可验证奖励的强化学习(RLVR)方法在训练后期遇到的学习信号退化问题。具体来说,随着训练的进行,越来越多的rollout被判定为“优势退化”,即所有生成的轨迹都获得了验证成功的奖励,导致奖励方差为零,优势函数也变为零,从而使得策略梯度消失,限制了模型的进一步优化。现有方法忽略了这些看似“完美”的rollout中可能仍然存在的有价值的学习信号。

核心思路:论文的核心思路是,即使rollout获得了验证成功的奖励,其内部的决策过程仍然可能存在差异,这些差异蕴含着学习信号。受到专家模型生成的黄金轨迹的启发,论文认为可以通过分析rollout中每一步的熵值来捕捉这些差异。通过识别具有代表性的“回声片段”(EchoClip),并将其作为辅助监督信号,可以重新激活这些被忽略的学习信号,从而提升训练效果。

技术框架:EchoRL作为一个轻量级模块,可以集成到现有的RLVR训练流程中。其主要流程如下:1) 使用现有的RLVR方法生成rollout;2) 对于验证成功的rollout,计算每一步的熵值;3) 基于熵值,从rollout中选择一个具有代表性的片段,即EchoClip;4) 将EchoClip作为辅助监督信号,添加到RL目标函数中,用于更新模型参数。

关键创新:论文的关键创新在于提出了利用rollout内部熵值来挖掘被忽略的学习信号的思想。与现有方法简单地忽略优势退化的rollout不同,EchoRL通过分析rollout的内部结构,提取有价值的信息,并将其用于指导模型训练。这种方法能够更有效地利用数据,提升训练效果。

关键设计:EchoRL的关键设计包括:1) 如何计算rollout中每一步的熵值;2) 如何基于熵值选择EchoClip。论文可能使用了诸如信息熵、交叉熵等指标来衡量每一步决策的不确定性。选择EchoClip的方法可能包括选择熵值最高的片段、选择与专家轨迹熵值分布最相似的片段等。具体的损失函数设计可能包括KL散度、交叉熵等,用于衡量模型生成的轨迹与EchoClip之间的差异。

📊 实验亮点

实验结果表明,EchoRL在10个基准测试、5个LLM骨干网络和4种流行的RLVR后训练方法上均取得了显著的性能提升。具体来说,EchoRL能够以最小的开销持续改进RLVR后训练,在某些任务上甚至能够带来超过10%的性能提升。这些结果表明,EchoRL是一种有效且通用的方法,能够解决RLVR训练中的奖励退化问题。

🎯 应用场景

EchoRL可应用于各种需要通过强化学习进行后训练的大型语言模型场景,例如提升模型的推理能力、代码生成能力、对话能力等。该方法尤其适用于奖励信号稀疏或容易饱和的任务,能够有效解决奖励退化问题,提升模型的性能和鲁棒性。未来,该方法可以扩展到其他类型的强化学习任务中,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards is an effective route for post-training to strengthen the reasoning capability of large language models. However, as training proceeds, the learning signal can collapse thus makes the training gain become marginal and ineffective. Specifically, a growing fraction of prompts' rollouts become advantage-degenerated: all the self-generated rollouts show verified-success, making the standard deviation over their rewards be zero; accordingly each rollout's advantage becomes degenerated (zero) as well. Given such rollouts' advantages, the policy-gradient for model optimization eventually vanishes, capping the training performance. We argue that some of these rollouts still contain valuable learning signals but unfortunately omitted with the existing RLVR methods. In this paper, inspired through analyzing the entropy pattern behind golden trajectories produced by external expert models, we propose EchoRL for better exploiting the advantage-degenerated rollouts to further improve the training performance. EchoRL is a lightweight module that first identifies an EchoClip from verified-success rollouts based on their step-level entropy values, and then feeds this clip back as an auxiliary supervision signal in the RL objective. Extensive experiments across 10 benchmarks, 5 LLM backbones, and 4 popular RLVR post-training methods demonstrate that EchoRL consistently improves RLVR post-training with minimal overhead.