Topology-aware Preemptive Scheduling for Co-located LLM Workloads

📄 arXiv: 2411.11560v1 📥 PDF

作者: Ping Zhang, Lei Su, Jinjie Yang, Xin Chen

分类: cs.DC, cs.AI

发布日期: 2024-11-18

备注: 17 Pages, 11 Figures, 5 Tables


💡 一句话要点

提出拓扑感知抢占式调度方法,提升LLM混合工作负载资源利用率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM调度 抢占式调度 拓扑感知 资源管理 集群调度

📋 核心要点

  1. 现有资源调度器在抢占时缺乏拓扑感知,导致释放的资源与高优先级任务的拓扑需求不匹配,影响性能。
  2. 提出一种细粒度的拓扑感知抢占式调度方法,确保被抢占任务释放的资源满足高优先级任务的拓扑亲和性需求。
  3. 实验结果表明,该方法显著提高了抢占效率,并将LLM工作负载的整体调度性能提高了55%。

📝 摘要(中文)

通过协同部署在统一资源池中运行多样化的大型语言模型(LLM)工作负载具有成本效益。例如,长时间运行的聊天服务通常遵循昼夜流量模式,这启发了批处理作业的协同部署,以满足连续峰值之间的资源低谷,从而在集群范围内饱和资源分配。这些异构工作负载通常具有不同的业务优先级,因此可以利用抢占来实现资源弹性。然而,工作负载通常也具有不同的拓扑偏好。较低优先级实例释放的资源可能无法满足通常对延迟敏感的高优先级在线服务的要求。这种不匹配的根本原因是资源调度器缺乏拓扑感知,尤其是在抢占期间。为了弥合这一差距,我们开发了一种细粒度的拓扑感知方法,用于混合工作负载的抢占式调度。该方法确保被抢占任务释放的资源以保证或尽力而为的方式满足高优先级抢占者的拓扑亲和性需求。这种动态对齐显著提高了抢占效率,并将LLM工作负载的整体调度性能提高了55%。

🔬 方法详解

问题定义:论文旨在解决在LLM混合工作负载场景下,由于资源调度器缺乏拓扑感知,导致抢占式调度效率低下的问题。现有方法在进行抢占时,通常忽略了不同工作负载对底层硬件拓扑的偏好,使得释放的资源可能无法满足高优先级任务的拓扑亲和性需求,从而影响其性能。

核心思路:论文的核心思路是引入拓扑感知机制,在抢占式调度过程中,不仅考虑任务的优先级,还要考虑其对底层硬件拓扑的偏好。通过动态地将释放的资源与高优先级任务的拓扑需求对齐,提高抢占效率,从而提升整体调度性能。

技术框架:论文提出了一种细粒度的拓扑感知抢占式调度方法。该方法主要包含以下几个阶段:1) 资源需求分析:分析不同LLM工作负载的资源需求和拓扑偏好。2) 抢占决策:根据任务优先级和拓扑亲和性,决定是否进行抢占。3) 资源分配:将被抢占任务释放的资源分配给高优先级任务,并尽量满足其拓扑需求。4) 调度执行:执行调度策略,并监控系统性能。

关键创新:论文最重要的技术创新点在于提出了拓扑感知的抢占式调度方法。与现有方法相比,该方法不仅考虑了任务的优先级,还考虑了其对底层硬件拓扑的偏好,从而能够更有效地利用资源,提高抢占效率。

关键设计:论文的关键设计包括:1) 细粒度的拓扑感知机制,能够精确地描述不同任务对底层硬件拓扑的偏好。2) 动态资源对齐策略,能够根据任务的优先级和拓扑需求,动态地调整资源分配方案。3) 抢占决策算法,能够在保证高优先级任务性能的同时,尽量减少对低优先级任务的影响。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该论文提出的拓扑感知抢占式调度方法能够显著提高LLM工作负载的整体调度性能,提升幅度达到55%。这意味着在相同的硬件资源条件下,可以支持更多的LLM任务,或者以更低的延迟响应用户请求。具体的对比基线和详细的性能数据在摘要中未给出,属于未知信息。

🎯 应用场景

该研究成果可应用于各种需要混合部署LLM工作负载的场景,例如云服务提供商、大型互联网公司等。通过提高资源利用率和调度效率,可以降低运营成本,提升服务质量,并为用户提供更好的体验。未来,该方法还可以扩展到其他类型的异构工作负载,进一步提升资源利用率和调度性能。

📄 摘要(原文)

Hosting diverse large language model workloads in a unified resource pool through co-location is cost-effective. For example, long-running chat services generally follow diurnal traffic patterns, which inspire co-location of batch jobs to fulfill resource valleys between successive peaks, and thus to saturate resource allocation in cluster-wide scope. These heterogeneous workloads often have different business priorities, and therefore preemption can be leveraged for resource elasticity. However, workloads often have distinct topology preferences as well. The resources released by lower-priority instances may fail to meet the requirements of high-priority online services which are usually latency-sensitive. The root cause behind such mis-match is a lack of topology awareness of resource scheduler, especially during preemption. To bridge this gap, we develop a fine-grained topology-aware method for preemptive scheduling of hybrid workloads. The method ensures that the resources freed by preempted tasks adhere to the topological affinity needs of high-priority preemptors in a guaranteed or best-effort manner. This dynamic alignment significantly increases the efficiency of preemption and improves overall scheduled performance for LLM workloads by $55\%$.