IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL
作者: Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar
分类: cs.LG, cs.AI
发布日期: 2026-03-12
备注: 29 pages, 27 figures. Under review
💡 一句话要点
提出IsoCompute Playbook,优化LLM强化学习中采样计算的分配策略。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 计算资源分配 缩放法则 并行rollout
📋 核心要点
- 现有LLM强化学习后训练缺乏有效的计算资源分配策略,阻碍了模型性能的进一步提升。
- 论文提出IsoCompute Playbook,将计算资源分配建模为约束优化问题,寻找最优的并行rollout数量、batch大小和更新步数。
- 实验表明,该方法能有效提升LLM在不同难度任务上的强化学习效果,并提供计算高效的训练指导。
📝 摘要(中文)
本文研究了大型语言模型(LLM)后训练中,基于强化学习(RL)的采样计算的最优分配问题。与预训练的计算缩放法则不同,本文将缩放问题建模为计算受限的优化问题,涉及三个资源:每个问题的并行rollout数量、每个batch的问题数量和更新步数。研究发现,每个问题的计算最优并行rollout数量随着计算预算的增加而可预测地增长,然后达到饱和。这种趋势在简单和困难的问题中都成立,但由不同的机制驱动:简单问题是解决方案的锐化,困难问题是覆盖范围的扩展。此外,增加并行rollout的数量可以减轻问题之间的干扰,而每个batch的问题数量主要影响训练稳定性,可以在较宽范围内选择。实验结果在不同的基础模型和数据分布上得到了验证,将RL缩放法则重新定义为规范性的分配规则,并为计算高效的LLM RL后训练提供了实践指导。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)强化学习(RL)后训练,缺乏明确的计算资源分配策略。尽管预训练阶段有明确的缩放法则指导计算分配,但在RL后训练阶段,如何有效地分配计算资源以提升模型性能仍然是一个挑战。现有的方法通常依赖于经验或启发式规则,缺乏理论指导,导致计算资源的浪费或训练效果不佳。
核心思路:本文的核心思路是将RL后训练的计算资源分配问题,建模为一个计算受限的优化问题。通过优化每个问题的并行rollout数量、每个batch的问题数量和更新步数这三个关键资源,寻找在给定计算预算下,能够最大化模型性能的最优分配方案。这种方法旨在将计算资源更有效地分配到对模型性能提升最关键的环节上。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 定义计算资源分配的优化目标,即最大化RL训练后的模型性能;2) 确定计算资源的约束条件,即总的计算预算;3) 将计算资源分配问题建模为一个优化问题,其中决策变量包括每个问题的并行rollout数量、每个batch的问题数量和更新步数;4) 通过实验分析不同资源分配方案对模型性能的影响,并找到最优的分配策略。
关键创新:本文最重要的技术创新在于,将RL缩放法则重新定义为规范性的分配规则。通过实验发现,每个问题的计算最优并行rollout数量随着计算预算的增加而呈现出可预测的增长趋势,并最终达到饱和。这一发现为RL后训练的计算资源分配提供了明确的指导,避免了盲目的资源投入。
关键设计:在实验设计方面,作者考虑了不同难度的问题,并分析了不同机制对最优rollout数量的影响。对于简单问题,最优rollout数量的增加主要驱动解决方案的锐化;而对于困难问题,则主要驱动覆盖范围的扩展。此外,作者还研究了不同batch大小对训练稳定性的影响,并发现batch大小可以在较宽范围内选择。
🖼️ 关键图片
📊 实验亮点
实验结果表明,本文提出的IsoCompute Playbook能够有效地提升LLM在不同难度任务上的强化学习效果。研究发现,每个问题的计算最优并行rollout数量随着计算预算的增加而可预测地增长,然后达到饱和。此外,增加并行rollout的数量可以减轻问题之间的干扰。这些发现为计算高效的LLM RL后训练提供了实践指导。
🎯 应用场景
该研究成果可应用于各种需要通过强化学习对大型语言模型进行后训练的场景,例如对话系统、文本生成、智能助手等。通过优化计算资源分配,可以显著提升模型的性能和训练效率,降低训练成本,加速LLM在实际应用中的部署。
📄 摘要(原文)
While scaling laws guide compute allocation for LLM pre-training, analogous prescriptions for reinforcement learning (RL) post-training of large language models (LLMs) remain poorly understood. We study the compute-optimal allocation of sampling compute for on-policy RL methods in LLMs, framing scaling as a compute-constrained optimization over three resources: parallel rollouts per problem, number of problems per batch, and number of update steps. We find that the compute-optimal number of parallel rollouts per problem increases predictably with compute budget and then saturates. This trend holds across both easy and hard problems, though driven by different mechanisms: solution sharpening on easy problems and coverage expansion on hard problems. We further show that increasing the number of parallel rollouts mitigates interference across problems, while the number of problems per batch primarily affects training stability and can be chosen within a broad range. Validated across base models and data distributions, our results recast RL scaling laws as prescriptive allocation rules and provide practical guidance for compute-efficient LLM RL post-training.