A Readiness-Driven Runtime for Pipeline-Parallel Training under Runtime Variability

作者: Ruitao Liu, Xinyang Tian, Shuo Chen, Tingrui Zhang, Guang Yang, Alan Zhao, Wei Xu

分类: cs.DC, cs.LG

发布日期: 2026-05-18

备注: 29 pages, including appendices

💡 一句话要点

提出RRFP运行时，解决流水线并行训练中运行时变异导致的任务对齐问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 流水线并行 运行时调度 就绪驱动 异步通信 深度学习训练

📋 核心要点

现有流水线并行训练系统在运行时变异下，易出现阶段错位和资源利用率低的问题。
RRFP将调度视为就绪任务的排序提示，而非强制执行的序列，从而实现更灵活的执行。
实验表明，RRFP在语言和多模态任务上均优于固定顺序流水线，最高加速2.77倍。

📝 摘要（中文）

流水线并行是扩展大型模型训练的关键技术，但现代工作负载在计算和通信中表现出运行时变异。现有的流水线系统通常采用静态、分析或自适应生成的调度作为预先确定的执行顺序。当实际任务准备就绪的时间与预先确定的顺序不一致时，即使有其他可执行的任务可用，各个阶段也可能等待尚未准备好的工作，从而导致阶段错位、空闲气泡和利用率降低。我们提出了运行时就绪优先流水线（RRFP），这是一种用于流水线并行训练的就绪驱动运行时。RRFP改变了运行时调度消耗的方式：不再将调度视为阶段必须等待遵循的序列，而是将调度视为对当前准备好的工作进行排序的非约束性提示顺序。为了支持这种模型，RRFP结合了消息驱动的异步通信、用于集体一致性的轻量级张量并行协调以及用于低开销调度的就绪集仲裁。

🔬 方法详解

问题定义：论文旨在解决流水线并行训练中，由于运行时计算和通信的变异性，导致现有静态或自适应调度策略无法有效利用计算资源的问题。现有方法依赖于预先确定的执行顺序，当任务的实际就绪状态与调度不符时，会产生空闲等待，降低GPU利用率。

核心思路：RRFP的核心思想是采用“就绪驱动”的执行方式，不再强制遵循预先设定的调度顺序，而是根据任务的实际就绪状态动态地选择执行任务。调度不再是约束，而是为已就绪的任务提供排序提示，从而最大限度地减少空闲时间，提高整体训练效率。

技术框架：RRFP的整体框架包括以下几个关键组件：1) 消息驱动的异步通信：使用异步通信机制，允许任务在数据准备好后立即执行，无需等待全局同步。2) 轻量级张量并行协调：在张量并行训练中，确保各个worker之间数据的一致性。3) 就绪集仲裁：维护一个就绪任务集合，并使用低开销的仲裁机制选择下一个要执行的任务。

关键创新：RRFP最重要的创新在于其就绪驱动的调度策略。与传统的静态或自适应调度不同，RRFP不依赖于预先计算的执行顺序，而是根据任务的实际就绪状态进行动态调度。这种方法能够更好地适应运行时变异，减少空闲等待，提高GPU利用率。

关键设计：RRFP的关键设计包括：1) 使用消息驱动的异步通信，减少同步开销。2) 设计了轻量级的张量并行协调机制，保证数据一致性。3) 实现了高效的就绪集仲裁算法，快速选择下一个要执行的任务。论文中使用了BFW (Best Fit Worst) 提示策略作为默认的排序提示，该策略旨在平衡任务的优先级和资源利用率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RRFP在语言模型和多模态模型的训练中均取得了显著的性能提升。在语言模型训练中，RRFP使用BFW提示策略实现了高达1.77倍的加速。在多模态模型训练中，加速比更是达到了2.77倍。与现有的流水线并行系统相比，RRFP在默认BF提示下，性能提升高达1.84倍，同时保证了训练的正确性。

🎯 应用场景

RRFP可应用于大规模深度学习模型的训练，尤其是在计算和通信具有高度动态性的场景下。例如，在多模态学习、强化学习等领域，任务的计算时间和数据依赖关系复杂，RRFP能够有效提高训练效率，缩短模型开发周期。该技术还有潜力应用于其他并行计算领域，如科学计算、数据分析等。

📄 摘要（原文）

Pipeline parallelism is a key technique for scaling large-model training, but modern workloads exhibit runtime variability in computation and communication. Existing pipeline systems typically consume static, profiled, or adaptively generated schedules as pre-committed execution orders. When realized task readiness diverges from the pre-committed order, stages may wait for not-yet-ready work even though other executable work is available, creating stage misalignment, idle bubbles, and reduced utilization. We present Runtime-Readiness-First Pipeline (RRFP), a readiness-driven runtime for pipeline-parallel training. RRFP changes how schedules are consumed at runtime: instead of treating a schedule as a sequence that stages must wait to follow, it treats the schedule as a non-binding hint order for ranking currently ready work. To support this model, RRFP combines message-driven asynchronous communication, lightweight tensor-parallel coordination for collective consistency, and ready-set arbitration for low-overhead dispatch. We implement RRFP in a Megatron-based training framework and evaluate it on language-only and multimodal workloads at up to 128 GPUs. RRFP improves over fixed-order pipeline baselines across all settings. Using the BFW hint, RRFP achieves up to 1.77$\times$ speedup on language-only workloads and up to 2.77$\times$ on multimodal workloads. In cross-framework comparisons, RRFP with the default BF hint outperforms the faster available external system by up to 1.84$\times$ while preserving training correctness.

A Readiness-Driven Runtime for Pipeline-Parallel Training under Runtime Variability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理