Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model

作者: Jing Liang, Hongyao Tang, Yi Ma, Jinyi Liu, Yan Zheng, Shuyue Hu, Lei Bai, Jianye Hao

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-09 (更新: 2025-07-11)

备注: Preliminary version, v3, added the missing name of x-axis in the left part of Fig.1 and corrected a wrong number in Fig.3. Project page: https://anitaleungxx.github.io/ReMix

💡 一句话要点

提出ReMix，通过高效的离线强化微调提升大型语言模型的推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 离策略学习 策略梯度 数学推理

📋 核心要点

现有强化微调方法是同策略的，数据利用率低，导致训练成本高昂，限制了模型扩展。
ReMix通过混合策略、KL-Convex约束和策略轮回，使同策略方法能有效利用离策略数据。
实验表明，ReMix在数学推理任务上，以更低的训练成本实现了与SOTA模型相当甚至更好的性能。

📝 摘要（中文）

强化学习(RL)已展现出提升大型语言模型(LLM)推理能力的潜力。然而，现有强化微调(RFT)方法的主要限制在于其本质上是同策略RL，即过去学习过程中生成的数据未被充分利用，导致计算和时间成本高昂，严重制约了经济高效的扩展。为此，我们重新审视离策略RL，并提出Reincarnating Mix-policy Proximal Policy Gradient (ReMix)，这是一种通用方法，使PPO和GRPO等同策略RFT方法能够利用离策略数据。ReMix包含三个主要组成部分：(1) 具有更高Update-To-Data (UTD)比率的混合策略近端策略梯度，以实现高效训练；(2) KL-Convex策略约束，以平衡稳定性和灵活性之间的权衡；(3) 策略轮回，以实现从高效的早期学习到稳定的渐近改进的无缝过渡。实验表明，ReMix在五个数学推理基准测试(AIME'24、AMC'23、Minerva、OlympiadBench和MATH500)上，使用0.079M响应rollout和350个训练步骤，1.5B模型的平均Pass@1准确率为52.10%，使用0.007M/0.011M响应rollout和50/75个训练步骤，7B模型达到63.27%/64.39%。与最近的15个先进模型相比，ReMix在rollout数据量方面减少了30倍至450倍的训练成本，同时展现了SOTA级别的性能。此外，我们通过多方面的分析揭示了深刻的发现，包括由于离策略差异的鞭打效应而对较短响应的隐式偏好，以及在存在严重离策略性时自我反思行为的崩溃模式等。

🔬 方法详解

问题定义：现有基于强化学习的大语言模型微调方法，如PPO，是on-policy的。这意味着每次迭代只能使用当前策略生成的数据进行训练，历史数据无法有效利用。这导致数据效率低下，需要大量的计算资源和时间来生成新的训练数据，成为扩展模型规模的瓶颈。

核心思路：ReMix的核心思路是将on-policy的强化学习方法改造为可以有效利用off-policy数据的算法。通过引入混合策略、KL散度约束和策略轮回机制，使得模型能够从历史数据中学习，提高数据利用率，从而降低训练成本。这样设计的目的是为了在保证训练稳定性的前提下，充分挖掘历史数据的价值。

技术框架：ReMix的整体框架基于现有的on-policy强化学习算法，如PPO和GRPO。主要包含以下几个模块：1) 混合策略(Mix-policy)：将当前策略和历史策略进行混合，生成新的策略。2) KL-Convex策略约束：使用KL散度约束来限制新策略与历史策略的差异，保证训练的稳定性。3) 策略轮回(Policy reincarnation)：在训练初期使用较大的学习率和探索度，快速学习；在训练后期，降低学习率和探索度，进行精细调整。

关键创新：ReMix的关键创新在于它提供了一种通用的方法，将现有的on-policy强化学习算法转化为可以利用off-policy数据的算法。这使得模型能够从历史数据中学习，提高数据利用率，从而降低训练成本。此外，KL-Convex策略约束和策略轮回机制进一步提高了训练的稳定性和效率。

关键设计：ReMix的关键设计包括：1) 混合策略的比例：需要仔细调整当前策略和历史策略的混合比例，以平衡探索和利用。2) KL散度约束的系数：需要调整KL散度约束的系数，以控制新策略与历史策略的差异。3) 策略轮回的学习率和探索度衰减策略：需要设计合适的学习率和探索度衰减策略，以保证训练的稳定性和效率。

🖼️ 关键图片

📊 实验亮点

ReMix在五个数学推理基准测试上取得了显著的成果。对于1.5B模型，仅使用0.079M的response rollouts和350个训练步骤，平均Pass@1准确率达到52.10%。对于7B模型，使用0.007M/0.011M的response rollouts和50/75个训练步骤，Pass@1准确率达到63.27%/64.39%。与15个先进模型相比，ReMix在训练成本上降低了30倍至450倍，同时保持了SOTA级别的性能。

🎯 应用场景

ReMix方法可以广泛应用于各种需要利用强化学习微调大型语言模型的场景，例如数学推理、代码生成、对话系统等。通过降低训练成本，ReMix使得更多研究者和开发者能够负担得起大型语言模型的强化微调，加速相关领域的发展。此外，ReMix还可以应用于其他强化学习任务，提高数据利用率和训练效率。

📄 摘要（原文）

Reinforcement Learning (RL) has demonstrated its potential to improve the reasoning ability of Large Language Models (LLMs). One major limitation of most existing Reinforcement Finetuning (RFT) methods is that they are on-policy RL in nature, i.e., data generated during the past learning process is not fully utilized. This inevitably comes at a significant cost of compute and time, posing a stringent bottleneck on continuing economic and efficient scaling. To this end, we launch the renaissance of off-policy RL and propose Reincarnating Mix-policy Proximal Policy Gradient (ReMix), a general approach to enable on-policy RFT methods like PPO and GRPO to leverage off-policy data. ReMix consists of three major components: (1) Mix-policy proximal policy gradient with an increased Update-To-Data (UTD) ratio for efficient training; (2) KL-Convex policy constraint to balance the trade-off between stability and flexibility; (3) Policy reincarnation to achieve a seamless transition from efficient early-stage learning to steady asymptotic improvement. In our experiments, we train a series of ReMix models upon PPO, GRPO and 1.5B, 7B base models. ReMix shows an average Pass@1 accuracy of 52.10% (for 1.5B model) with 0.079M response rollouts, 350 training steps and achieves 63.27%/64.39% (for 7B model) with 0.007M/0.011M response rollouts, 50/75 training steps, on five math reasoning benchmarks (i.e., AIME'24, AMC'23, Minerva, OlympiadBench, and MATH500). Compared with 15 recent advanced models, ReMix shows SOTA-level performance with an over 30x to 450x reduction in training cost in terms of rollout data volume. In addition, we reveal insightful findings via multifaceted analysis, including the implicit preference for shorter responses due to the Whipping Effect of off-policy discrepancy, the collapse mode of self-reflection behavior under the presence of severe off-policyness, etc.

Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理