Staggered Batch Scheduling: Co-optimizing Time-to-First-Token and Throughput for High-Efficiency LLM Inference

作者: Jian Tian, Shuailong Li, Yang Cao, Wenbo Cui, Minghan Zhu, Wenkang Wu, Jianming Zhang, Yanpeng Wang, Zhiwen Xiao, Zhenyu Hou, Dou Shen

分类: cs.DC, cs.LG

发布日期: 2025-12-18

💡 一句话要点

提出交错批调度(SBS)，优化DP+EP架构下LLM推理的首Token延迟和吞吐量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型推理 分布式系统 调度算法 首Token延迟 吞吐量优化

📋 核心要点

DP+EP架构下LLM服务中，立即调度请求导致引擎内排队和并行化气泡，严重影响首Token延迟。
提出交错批调度（SBS），通过缓冲请求形成最佳批次，消除内部排队气泡，并利用调度窗口进行负载均衡。
在生产H800集群上，SBS将TTFT降低30%-40%，吞吐量提高15%-20%，显著优于现有调度方法。

📝 摘要（中文）

针对大规模分布式架构（特别是P/D分离的DP+EP范式）下LLM服务面临的调度挑战，本文提出交错批调度（Staggered Batch Scheduling, SBS）。与传统调度器将实例视为黑盒不同，DP+EP架构具有较高的内部同步成本。研究发现，在此类系统中立即调度请求会导致严重的引擎内排队和并行化气泡，从而降低首Token延迟（TTFT）。SBS通过有意缓冲请求以形成最佳执行批次来解决此问题，这种时间解耦消除了内部排队气泡，且不影响吞吐量。此外，利用缓冲创建的调度窗口，引入负载感知全局分配策略，以平衡Prefill和Decode阶段跨DP单元的计算负载。在服务Deepseek-V3的生产H800集群上部署后，与最先进的立即调度基线相比，该系统将TTFT降低了30%-40%，并将吞吐量提高了15%-20%。

🔬 方法详解

问题定义：论文旨在解决大规模分布式LLM服务中，特别是采用DP+EP架构时，由于高内部同步成本导致的调度效率低下问题。现有立即调度方法在DP+EP架构下会产生严重的引擎内排队和并行化气泡，导致首Token延迟（TTFT）增加，影响用户体验。同时，简单的增加batch size又会影响TTFT。

核心思路：论文的核心思路是通过时间解耦的方式，即交错批调度（SBS），来优化请求的调度。SBS并非立即调度请求，而是有意识地缓冲请求，形成更优的执行批次。这种缓冲创造了一个调度窗口，允许进行全局负载感知的资源分配，从而平衡不同DP单元上的计算负载，最终降低TTFT并提高吞吐量。

技术框架：SBS包含两个主要阶段：请求缓冲和全局负载感知分配。首先，请求被缓冲在一个调度队列中，等待形成合适的批次。然后，利用缓冲窗口，采用负载感知的全局分配策略，将批次分配到不同的DP单元上。该策略考虑了Prefill和Decode阶段的计算负载，力求在各个DP单元之间实现负载均衡，避免出现资源闲置或拥塞。

关键创新：论文的关键创新在于将时间维度引入LLM推理调度中。传统的调度方法通常是基于即时可用资源进行调度，而SBS则通过缓冲请求，创造了一个时间窗口，从而能够进行更全局的优化。这种时间解耦的思想是与现有方法的本质区别。

关键设计：SBS的关键设计包括：1) 缓冲队列的长度，需要根据实际负载和系统资源进行调整，以平衡TTFT和吞吐量；2) 负载感知的全局分配策略，需要精确估计Prefill和Decode阶段的计算负载，并根据DP单元的计算能力进行合理分配；3) 调度窗口大小的确定，需要在TTFT和调度优化空间之间进行权衡。论文中可能还涉及一些具体的负载预测模型或启发式算法，用于实现负载均衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在服务Deepseek-V3的生产H800集群上，与最先进的立即调度基线相比，SBS将首Token延迟（TTFT）降低了30%-40%，并将吞吐量提高了15%-20%。这些数据表明SBS在实际应用中具有显著的性能优势。

🎯 应用场景

该研究成果可广泛应用于大规模语言模型的在线推理服务，特别是在需要高并发、低延迟的场景下，例如智能客服、AI助手、搜索引擎等。通过优化调度策略，可以显著提升用户体验，并提高计算资源的利用率，降低运营成本。未来，该方法可以进一步扩展到其他类型的AI模型和服务中。

📄 摘要（原文）

The evolution of Large Language Model (LLM) serving towards complex, distributed architectures--specifically the P/D-separated, large-scale DP+EP paradigm--introduces distinct scheduling challenges. Unlike traditional deployments where schedulers can treat instances as black boxes, DP+EP architectures exhibit high internal synchronization costs. We identify that immediate request dispatching in such systems leads to severe in-engine queuing and parallelization bubbles, degrading Time-to-First-Token (TTFT). To address this, we propose Staggered Batch Scheduling (SBS), a mechanism that deliberately buffers requests to form optimal execution batches. This temporal decoupling eliminates internal queuing bubbles without compromising throughput. Furthermore, leveraging the scheduling window created by buffering, we introduce a Load-Aware Global Allocation strategy that balances computational load across DP units for both Prefill and Decode phases. Deployed on a production H800 cluster serving Deepseek-V3, our system reduces TTFT by 30%-40% and improves throughput by 15%-20% compared to state-of-the-art immediate scheduling baselines.

Staggered Batch Scheduling: Co-optimizing Time-to-First-Token and Throughput for High-Efficiency LLM Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册