Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR

📄 arXiv: 2605.07114v1 📥 PDF

作者: Tao Wang, Shuo Li, Yan Sun, Dongsheng Ding, Edgar Dobriban

分类: cs.LG

发布日期: 2026-05-08


💡 一句话要点

提出HORA算法:通过命中效用最优分配策略提升基于群组的RLVR推理效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 推理优化 策略梯度 计算效率 RLVR

📋 核心要点

  1. 现有基于群组的RLVR方法(如GRPO)采用均匀采样分配,导致计算资源在已饱和提示词上浪费,而在困难提示词上探索不足。
  2. 论文提出“命中效用”概念,通过计算额外采样获得正确轨迹的后验概率,设计了无需学习的HORA分配策略,实现计算资源的动态优化。
  3. 实验表明,HORA在保持Pass@1性能的同时,显著提升了Pass@K指标,且在多种模型规模和基准测试中表现出优于均匀分配的鲁棒性。

📝 摘要(中文)

具有可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的核心范式。以GRPO为代表的基于群组的策略优化方法,通常为每个提示词分配固定数量的采样(rollouts)。这种均匀分配策略效率低下:它为那些采样组已饱和的提示词分配了过多的计算资源,而对那些通过额外采样可能发现正确路径的提示词则探索不足。为了解决这一局限,本文引入了“命中效用”(hit utility)的概念,即在给定的额外分配中至少有一个正确轨迹的后验概率。基于此,我们提出了命中效用最优采样分配(HORA),这是一种无需学习的分配策略,旨在最大化每个分配批次内的总后验命中效用。HORA在保持下游奖励评估和群组优势估计器不变的前提下,自适应地重新分配采样预算。在四个数学推理基准和三种模型规模的测试中,HORA在12个配置中的10个里提升了Pass@K指标,且与GRPO等方法具有即插即用的兼容性。

🔬 方法详解

问题定义:在RLVR框架下,如何高效分配有限的采样预算(rollouts)是核心挑战。现有方法对所有提示词采用固定数量的采样,忽略了不同提示词的难度差异,导致计算资源分配不均,无法最大化模型在推理任务中的成功率。

核心思路:引入“命中效用”度量,即在当前采样基础上增加分配时,获得至少一个正确轨迹的后验概率。通过最大化该效用,实现计算资源向“最有潜力产生正确结果”的提示词倾斜,从而在总预算不变的情况下提升整体性能。

技术框架:HORA作为一个即插即用的分配层,位于策略采样阶段。它根据已有的采样结果计算每个提示词的命中效用,并利用贪婪策略在批次内动态分配剩余的采样预算,随后将分配结果输入到标准的GRPO或RLOO优势估计器中进行训练。

关键创新:核心创新在于将采样分配问题转化为一个基于后验概率的效用最大化问题,且该方法无需额外的训练过程(learning-free),避免了引入复杂的元学习开销,同时保持了与现有RLVR算法的兼容性。

关键设计:HORA采用均匀先验假设,通过贝叶斯更新计算命中效用。其分配逻辑是贪婪地将下一个采样分配给当前命中效用增量最大的提示词,直至达到预算上限。这种设计在消融实验中被证明优于多种基于提示词特征的复杂学习型先验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HORA在四个数学推理基准和三种模型规模上进行了广泛验证。结果显示,在12个测试配置中,HORA在10个配置中提升了Pass@K指标,且与GRPO相比,在计算资源消耗一致的情况下,表现出更优的探索效率。消融实验进一步证实了其简单均匀先验的有效性,优于五种复杂的学习型先验方案。

🎯 应用场景

该方法适用于大规模语言模型的推理能力强化,特别是在数学推理、代码生成等具有明确验证机制的领域。它能有效降低RLVR训练过程中的计算成本,提升模型在复杂逻辑任务上的成功率,对资源受限的训练环境具有显著的实际应用价值。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has emerged as a central paradigm for improving the reasoning capabilities of large language models. Group-based policy optimization methods, such as GRPO, typically allocate a fixed number of rollouts to every prompt. This uniform allocation can be inefficient: it over-allocates compute to prompts whose sampled groups are already saturated while under-exploring prompts for which additional samples may reveal useful correct trajectories. To address this limitation, we introduce hit utility, the posterior probability that at least one rollout in a proposed additional allocation for a prompt will be correct. Building on this notion, we propose Hit-Utility Optimal Rollout Allocation (HORA), a learning-free rollout allocation policy that maximizes total posterior hit utility within each allocation batch. HORA adaptively reallocates rollout budgets while leaving the downstream reward evaluation and group-based advantage estimator unchanged. Across four mathematical reasoning benchmarks and three model scales, HORA preserves comparable Pass@1 and improves Pass@K over compute-matched GRPO in ten of twelve model--benchmark configurations, with one tie and one saturated exception. It is also drop-in compatible with other group-based estimators such as RLOO. Ablation studies indicate that the uniform prior used by HORA is competitive with five prompt-conditioned learned-prior alternatives.