Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference

作者: Mohammad Siavashi, Faezeh Keshmiri Dindarloo, Dejan Kostic, Marco Chiesa

分类: cs.LG, cs.DC

发布日期: 2025-03-12

DOI: 10.1145/3721146.3721956

💡 一句话要点

QLLM：面向MoE模型，实现优先级感知的抢占式调度，优化混合负载推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: MoE模型 推理优化 抢占式调度 优先级调度 混合负载 低延迟 服务质量 GPU加速

📋 核心要点

现有推理系统在混合负载下，采用迭代级先来先服务调度，导致延迟敏感型任务易受尽力而为型任务阻塞。
QLLM提出一种细粒度的、优先级感知的抢占式调度器，在专家层级实现抢占，优化延迟敏感型任务的TTFT。
实验表明，QLLM能显著降低延迟敏感型任务的TTFT（平均65.5倍），并提升服务水平目标下的请求处理能力。

📝 摘要（中文）

大型语言模型彻底改变了自然语言处理领域，但在数据中心高效地服务这些模型仍然面临挑战，尤其是在包含延迟敏感型（LS）和尽力而为型（BE）作业的混合工作负载场景下。现有的推理系统采用迭代级别的先来先服务调度，当BE作业延迟LS作业时，会导致队首阻塞。我们提出了QLLM，一种为混合专家（MoE）模型设计的新型推理系统，它具有细粒度的、优先级感知的抢占式调度器。QLLM支持专家级别的抢占，推迟BE作业的执行，同时最小化LS作业的首个token生成时间（TTFT）。我们的方法消除了迭代级别的调度约束，使调度器能够基于优先级在任何层抢占作业。在Nvidia A100 GPU上的评估表明，QLLM显著提高了性能。它将LS TTFT平均降低了65.5倍，并在高达7个请求/秒的情况下满足服务水平目标（SLO），而基线方法在测试的工作负载下无法做到这一点。此外，它将LS周转时间缩短了高达12.8倍，而没有影响吞吐量。QLLM是模块化的、可扩展的，并且可以与Hugging Face MoE模型无缝集成。

🔬 方法详解

问题定义：现有MoE模型推理服务中，混合负载场景下，延迟敏感型任务容易受到尽力而为型任务的阻塞，导致TTFT增加，无法满足服务水平目标。传统的迭代级先来先服务调度策略无法有效区分任务优先级，造成资源分配不合理。

核心思路：QLLM的核心思路是引入优先级感知的抢占式调度，允许调度器在专家层级中断低优先级（尽力而为型）任务的执行，优先处理高优先级（延迟敏感型）任务，从而最小化延迟敏感型任务的TTFT。通过细粒度的抢占机制，打破了迭代级别的调度约束，实现了更灵活的资源分配。

技术框架：QLLM推理系统包含以下主要模块：请求队列管理模块，负责接收和管理推理请求，并根据优先级进行排序；优先级感知的抢占式调度器，负责根据任务优先级和资源占用情况，动态调整任务的执行顺序，并在必要时进行抢占；MoE模型推理引擎，负责执行具体的模型推理计算；资源监控模块，负责实时监控GPU资源的使用情况，为调度器提供决策依据。整体流程为：请求进入队列，调度器根据优先级和资源情况分配任务到推理引擎，若高优先级任务到达，调度器可抢占低优先级任务，待高优先级任务完成后，恢复被抢占的任务。

关键创新：QLLM最重要的技术创新点在于其细粒度的、优先级感知的抢占式调度器。与传统的迭代级调度相比，QLLM可以在专家层级进行抢占，从而更有效地利用GPU资源，降低延迟敏感型任务的TTFT。此外，QLLM的设计允许在任何层进行抢占，提供了更大的灵活性。

关键设计：QLLM的关键设计包括：优先级队列的实现，用于区分不同优先级的任务；抢占阈值的设置，用于控制抢占的频率和粒度；资源监控的精度，用于实时了解GPU资源的使用情况。具体的参数设置和损失函数（如果涉及训练调度器）在论文中可能未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

QLLM在Nvidia A100 GPU上的实验结果表明，其能够显著降低延迟敏感型任务的TTFT，平均降低了65.5倍。同时，QLLM能够在高达7个请求/秒的情况下满足服务水平目标，而基线方法无法做到。此外，QLLM还将延迟敏感型任务的周转时间缩短了高达12.8倍，而没有影响整体吞吐量。这些结果表明，QLLM在混合负载推理场景下具有显著的性能优势。

🎯 应用场景

QLLM适用于需要同时处理延迟敏感型和尽力而为型推理请求的在线服务场景，例如实时对话系统、智能客服、在线翻译等。通过优化延迟敏感型任务的响应速度，可以提升用户体验，并提高系统的整体服务质量。未来，QLLM可以扩展到支持更多类型的模型和硬件平台，并与其他优化技术相结合，进一步提升推理性能。

📄 摘要（原文）

Large Language Models have revolutionized natural language processing, yet serving them efficiently in data centers remains challenging due to mixed workloads comprising latency-sensitive (LS) and best-effort (BE) jobs. Existing inference systems employ iteration-level first-come-first-served scheduling, causing head-of-line blocking when BE jobs delay LS jobs. We introduce QLLM, a novel inference system designed for Mixture of Experts (MoE) models, featuring a fine-grained, priority-aware preemptive scheduler. QLLM enables expert-level preemption, deferring BE job execution while minimizing LS time-to-first-token (TTFT). Our approach removes iteration-level scheduling constraints, enabling the scheduler to preempt jobs at any layer based on priority. Evaluations on an Nvidia A100 GPU show that QLLM significantly improves performance. It reduces LS TTFT by an average of $65.5\times$ and meets the SLO at up to $7$ requests/sec, whereas the baseline fails to do so under the tested workload. Additionally, it cuts LS turnaround time by up to $12.8\times$ without impacting throughput. QLLM is modular, extensible, and seamlessly integrates with Hugging Face MoE models.

Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理