Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model

📄 arXiv: 2603.25184v1 📥 PDF

作者: Jiahao Wu, Ning Lu, Shengcai Liu, Kun Wang, Yanting Yang, Li Qing, Ke Tang

分类: cs.LG, cs.AI

发布日期: 2026-03-26


💡 一句话要点

提出HIVE框架,通过在线验证提示选择,高效训练大型推理模型的强化学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理任务 prompt选择 数据效率

📋 核心要点

  1. 现有强化学习方法在训练大型推理模型时,rollout 成本高昂,大量 prompt 提供的梯度信息不足,导致训练效率低下。
  2. HIVE 框架通过历史信息进行粗略选择,并利用 prompt 熵进行在线验证,从而选择高实用性的 prompt,提高数据利用率。
  3. 实验结果表明,HIVE 能够在多个数学推理基准和模型上,显著提高 rollout 效率,同时保持甚至提升模型性能。

📝 摘要(中文)

强化学习已成为后训练大型语言模型(LLMs)以执行推理任务的关键技术。虽然扩展 rollout 可以稳定训练并提高性能,但计算开销是一个关键问题。在 GRPO 等算法中,每个 prompt 的多次 rollout 会产生过高的成本,因为大部分 prompt 提供的梯度可以忽略不计,因此效用较低。为了解决这个问题,我们研究了如何在 rollout 阶段之前选择高实用性的 prompt。我们的实验分析表明,样本效用是非均匀且不断变化的:最强的学习信号集中在“学习边缘”,即中等难度和高不确定性的交汇处,并且随着训练的进行而移动。受此启发,我们提出了 HIVE(历史信息和在线验证的 prompt 选择),这是一个用于数据高效 RL 的双阶段框架。HIVE 利用历史奖励轨迹进行粗略选择,并采用 prompt 熵作为实时代理来修剪效用过时的实例。通过在多个数学推理基准和模型上评估 HIVE,我们表明 HIVE 可以在不影响性能的情况下显着提高 rollout 效率。

🔬 方法详解

问题定义:论文旨在解决在强化学习训练大型语言模型进行推理任务时,由于大量低效 prompt 导致的 rollout 成本过高的问题。现有方法,如 GRPO,对每个 prompt 进行多次 rollout,但其中许多 prompt 提供的梯度信息很少,造成了计算资源的浪费。

核心思路:论文的核心思路是选择高实用性的 prompt 进行 rollout,从而提高训练效率。作者观察到,有效的学习信号集中在“学习边缘”,即难度适中且不确定性高的 prompt 上。因此,通过识别和选择这些“学习边缘”上的 prompt,可以更有效地利用计算资源。

技术框架:HIVE 框架包含两个主要阶段:历史信息粗略选择和在线验证精细选择。首先,利用历史奖励轨迹对 prompt 进行粗略筛选,选择具有较高潜在价值的 prompt。然后,使用 prompt 熵作为实时代理,进一步筛选掉效用过时的 prompt。最终,选择出的 prompt 用于 rollout 和梯度更新。

关键创新:HIVE 的关键创新在于其双阶段 prompt 选择机制,特别是引入了在线验证环节。与仅依赖历史信息的选择方法不同,HIVE 能够根据当前训练状态动态调整 prompt 选择策略,从而更准确地识别“学习边缘”上的 prompt。

关键设计:HIVE 使用历史奖励轨迹的统计信息(例如均值和方差)来评估 prompt 的潜在价值。Prompt 熵被用作衡量 prompt 不确定性的指标,熵值高的 prompt 被认为更可能位于“学习边缘”。具体的熵计算方法和阈值设置可能需要根据不同的任务和模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HIVE 能够在多个数学推理基准(例如 MATH)上,显著提高 rollout 效率,同时保持甚至提升模型性能。具体而言,HIVE 能够在不损失性能的前提下,减少 30%-50% 的 rollout 数量,从而大幅降低训练成本。

🎯 应用场景

HIVE 框架可应用于各种需要强化学习训练的大型语言模型推理任务,例如数学问题求解、代码生成、知识推理等。该方法能够有效降低训练成本,提高训练效率,加速大型语言模型在复杂推理任务中的应用。

📄 摘要(原文)

Reinforcement learning (RL) has become essential for post-training large language models (LLMs) in reasoning tasks. While scaling rollouts can stabilize training and enhance performance, the computational overhead is a critical issue. In algorithms like GRPO, multiple rollouts per prompt incur prohibitive costs, as a large portion of prompts provide negligible gradients and are thus of low utility. To address this problem, we investigate how to select high-utility prompts before the rollout phase. Our experimental analysis reveals that sample utility is non-uniform and evolving: the strongest learning signals concentrate at the ``learning edge", the intersection of intermediate difficulty and high uncertainty, which shifts as training proceeds. Motivated by this, we propose HIVE (History-Informed and online-VErified prompt selection), a dual-stage framework for data-efficient RL. HIVE utilizes historical reward trajectories for coarse selection and employs prompt entropy as a real-time proxy to prune instances with stale utility. By evaluating HIVE across multiple math reasoning benchmarks and models, we show that HIVE yields significant rollout efficiency without compromising performance.