PlexRL: Cluster-Level Orchestration of Serviceized LLM Execution for RLVR
作者: Yiqi Zhang, Fangzheng Jiao, Tian Tang, Boyu Tian, Hangyu Wang, Qiaoling Chen, Guoteng Wang, Zhen Jiang, Peng Sun, Ping Zhang, Xiaohe Hu, Ziming Liu, Menghao Zhang, Yanmin Jia, Yang You, Siyuan Feng
分类: cs.DC, cs.LG
发布日期: 2026-05-20
💡 一句话要点
PlexRL:面向RLVR的LLM服务集群级编排,提升资源利用率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 集群调度 资源管理 时间切片 服务复用 RLVR
📋 核心要点
- RLVR训练效率低下,源于长尾rollout、工具停顿和资源不对称等结构性问题,传统作业局部优化方法难以解决。
- PlexRL的核心思想是利用集群层面RLVR作业间空闲时间的反相关性,通过时间切片复用LLM服务,提升资源利用率。
- 实验表明,PlexRL显著提升了集群有效容量,降低了GPU小时成本,同时保持了算法灵活性和较低的作业开销。
📝 摘要(中文)
基于可验证奖励的强化学习(RLVR)最近释放了大型语言模型(LLM)强大的推理能力,从而推动了对新算法和数据的快速探索。然而,RLVR训练的效率非常低:长尾rollout、工具引起的停顿以及rollout和训练之间不对称的资源需求导致大量的空闲时间,而这些空闲时间无法通过诸如同步流水线、异步rollout或共址执行等作业局部优化来消除。我们认为这种低效率是结构性的。虽然在单个RLVR作业中不可避免地存在空闲间隙,但它们在作业之间很大程度上是反相关的,因此可以在集群级别加以利用。基于这一观察,我们提出了PlexRL,这是一种集群级运行时,用于在RLVR作业中复用统一的LLM服务。通过在严格的亲和性约束下集中管理模型放置、状态转换和函数级调度,PlexRL跨作业对LLM执行进行时间切片,以填充原本空闲的时间段,而无需昂贵的模型迁移。我们的实现和评估表明,PlexRL显著提高了有效集群容量,并最多减少了37.58%的用户GPU小时成本,同时保留了算法灵活性并引入了最小的每个作业开销。
🔬 方法详解
问题定义:RLVR训练效率低下,主要由于以下原因:1) rollout过程存在长尾效应,部分rollout时间过长;2) 工具调用可能导致停顿;3) rollout和训练阶段对资源的需求不对称。这些因素导致GPU资源在作业内部出现大量空闲时间,现有方法如同步流水线、异步rollout和共址执行等无法有效解决这一问题。
核心思路:PlexRL的核心思路是观察到不同RLVR作业的空闲时间具有反相关性,即一个作业处于空闲状态时,另一个作业可能正处于计算密集型阶段。因此,通过在集群层面进行统一调度,可以将LLM服务在不同作业之间进行时间切片复用,从而填补空闲时间,提高整体资源利用率。这种方法避免了昂贵的模型迁移,并保持了算法的灵活性。
技术框架:PlexRL采用集群级运行时架构,主要包含以下模块:1) 模型放置管理器:负责在集群中放置LLM模型,并根据作业需求进行动态调整。2) 状态转换管理器:负责管理LLM服务的状态转换,确保在不同作业之间切换时状态的一致性。3) 函数级调度器:负责在函数级别对LLM执行进行调度,实现细粒度的时间切片复用。PlexRL在调度时会考虑作业间的亲和性约束,避免频繁切换导致的性能损失。
关键创新:PlexRL的关键创新在于集群级别的LLM服务复用机制。与传统的作业局部优化方法不同,PlexRL从全局视角出发,通过时间切片的方式将LLM服务在不同作业之间共享,从而有效利用了集群中的空闲资源。这种方法避免了模型迁移的开销,并保持了算法的灵活性。
关键设计:PlexRL的关键设计包括:1) 基于亲和性的调度策略:优先调度具有相似资源需求的作业,减少模型切换开销。2) 细粒度的时间切片机制:在函数级别对LLM执行进行调度,实现更精细的资源分配。3) 状态管理机制:确保LLM服务在不同作业之间切换时状态的一致性,避免数据污染。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PlexRL能够显著提高集群的有效容量,并最多减少37.58%的用户GPU小时成本。与传统的作业局部优化方法相比,PlexRL在保持算法灵活性的同时,引入了最小的每个作业开销。这些结果验证了PlexRL在提高RLVR训练效率方面的有效性。
🎯 应用场景
PlexRL适用于需要大规模LLM服务的RLVR训练场景,例如机器人控制、游戏AI和自然语言处理等领域。通过提高集群资源利用率,PlexRL可以降低训练成本,加速算法迭代,并促进RLVR技术在更广泛领域的应用。未来,PlexRL可以扩展到支持更多类型的LLM服务和更复杂的调度策略。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (RLVR) has recently unlocked strong reasoning capabilities in large language models (LLMs), triggering rapid exploration of new algorithms and data. However, RLVR training is notoriously inefficient: long-tailed rollouts, tool-induced stalls, and asymmetric resource requirements between rollout and training introduce substantial idle time that cannot be eliminated by job-local optimizations such as synchronous pipelining, asynchronous rollout, or colocated execution. We argue that this inefficiency is structural. While idle gaps are unavoidable within individual RLVR jobs, they are largely anti-correlated across jobs and therefore exploitable at the cluster level. Leveraging this observation, we present PlexRL, a cluster-level runtime for multiplexing unified LLM services across RLVR jobs. By centrally managing model placement, state transitions, and function-level scheduling under strict affinity constraints, PlexRL time-slices LLM execution across jobs to fill otherwise idle periods without expensive model migration. Our implementation and evaluations demonstrate that PlexRL significantly improves effective cluster capacity and reduces user GPU hour cost by maximum 37.58% while preserving algorithmic flexibility and introducing minimal per-job overhead.