RoRecomp: Enhancing Reasoning Efficiency via Rollout Response Recomposition in Reinforcement Learning
作者: Gang Li, Yulei Qin, Xiaoyu Tan, Dingkang Yang, Yuchen Shi, Zihan Xu, Xiang Li, Xing Sun, Ke Li
分类: cs.AI, cs.CL
发布日期: 2025-09-30
💡 一句话要点
提出RoRecomp,通过重组Rollout响应提升强化学习中LLM的推理效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 推理效率 奖励函数 数据重组 Rollout 思维压缩
📋 核心要点
- 现有RLVR训练中,LLM推理过程冗长,探索轨迹效率低,缺乏对效率的激励。
- RoRecomp通过重组训练数据,区分优先级批次和补偿批次,引导模型进行简洁推理。
- 实验表明,RoRecomp在多个任务中显著提升效率,减少推理长度和不必要的工具调用。
📝 摘要(中文)
本文提出了一种名为Rollout Response Recomposition (RoRecomp) 的即插即用方法,旨在提高具有可验证奖励的强化学习 (RLVR) 中大型语言模型 (LLM) 的推理效率。标准的RLVR训练通常导致冗长的推理过程和低效的探索轨迹,因为仅基于结果的奖励无法激励效率,并且相对较小的 rollout 组内响应长度的高方差会导致嘈杂的优化信号。RoRecomp 通过策略性地重组训练数据来引导模型进行简洁的推理。它将响应分为两种不同的批次类型:1) 优先级批次,它结合了来自在线批次的短-正确和长-错误响应,为简洁性提供清晰的梯度信号;2) 补偿批次,它利用来自回放缓冲区的剩余响应来维持稳定性并防止模型崩溃。在三个设置中进行的评估表明,RoRecomp 显著提高了效率:在零 RL 训练中减少了 27.7% 的推理长度,在 agentic RL 中减少了 46.8% 的不必要工具调用,同时提高了准确性,并在思维压缩中实现了高达 52.5% 的长度减少,且对性能的影响极小。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习(RLVR)训练大型语言模型(LLM)时,存在推理过程过于冗长和探索轨迹效率低下的问题。这是因为奖励函数通常只关注结果的正确性,而忽略了推理过程的效率,导致模型倾向于生成冗长的、不必要的步骤。此外,由于rollout中响应长度差异较大,优化信号噪声较大,影响训练效果。
核心思路:RoRecomp的核心思路是通过策略性地重组训练数据,为模型提供更清晰的关于简洁性的梯度信号。具体来说,它将训练数据分为两类:优先级批次和补偿批次。优先级批次侧重于利用“短而正确”以及“长而错误”的样本,强化模型对简洁性的偏好。补偿批次则利用剩余数据,维持训练的稳定性,防止模型性能崩溃。
技术框架:RoRecomp是一个即插即用的方法,可以嵌入到现有的RLVR训练流程中。其主要流程如下:1. 从在线rollout中收集一批响应。2. 根据响应的长度和正确性,将响应分为“短而正确”、“长而错误”以及剩余响应。3. 构建优先级批次,包含“短而正确”和“长而错误”的响应。4. 构建补偿批次,包含剩余响应。5. 使用优先级批次和补偿批次更新模型参数。
关键创新:RoRecomp的关键创新在于其数据重组策略,它通过区分优先级批次和补偿批次,为模型提供了更清晰的关于简洁性的梯度信号。与传统的RLVR方法相比,RoRecomp能够更有效地引导模型生成简洁的推理过程,从而提高推理效率。
关键设计:RoRecomp的关键设计包括:1. 优先级批次的构建方式:选择“短而正确”和“长而错误”的响应,并赋予更高的权重。2. 补偿批次的构建方式:使用剩余响应,并赋予较低的权重,以维持训练的稳定性。3. 批次大小的设置:需要根据具体任务进行调整,以平衡效率和稳定性。
🖼️ 关键图片
📊 实验亮点
RoRecomp在三个不同的实验设置中都取得了显著的效率提升。在零 RL 训练中,推理长度减少了 27.7%。在 agentic RL 中,不必要的工具调用减少了 46.8%,同时提高了准确性。在思维压缩中,长度减少了高达 52.5%,且对性能的影响极小。这些结果表明,RoRecomp 是一种有效的提高 LLM 推理效率的方法。
🎯 应用场景
RoRecomp可应用于各种需要LLM进行复杂推理的场景,例如问答系统、智能助手、代码生成等。通过提高推理效率,RoRecomp可以降低计算成本,并提升用户体验。此外,该方法还可以应用于思维压缩,将复杂的推理过程压缩成更简洁的形式,便于理解和应用。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (RLVR) has proven effective in eliciting complex reasoning in large language models (LLMs). However, standard RLVR training often leads to excessively verbose processes (in reasoning tasks) and inefficient exploration trajectories (in agentic settings), as outcome-only rewards provide no incentive for efficiency and the high variance in response length within relatively small rollout groups results in noisy optimization signals. To address this, we propose Rollout Response Recomposition (RoRecomp), a plug-and-play method that guides models toward concise reasoning by strategically recomposing the training data. RoRecomp separates responses into two distinct batch types: 1) priority batches, which combine short-correct and long-incorrect responses selected from online batches to provide a clear gradient signal for brevity, and 2) compensation batches, which utilize remaining responses from a replay buffer to maintain stability and prevent model collapse. To comprehensively evaluate effectiveness, we test RoRecomp across three settings where results demonstrate substantial efficiency gains: reducing reasoning length by 27.7% in zero RL training, reducing unnecessary tool calls by 46.8% while improving accuracy in agentic RL, and achieving up to 52.5% length reduction in thinking compression, all with minimal performance impact.