TAPAS: Thermal- and Power-Aware Scheduling for LLM Inference in Cloud Platforms

作者: Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Haoran Qiu, Rodrigo Fonseca, Josep Torrellas, Ricardo Bianchini

分类: cs.DC, cs.AI

发布日期: 2025-01-05

💡 一句话要点

TAPAS：面向云平台LLM推理的热感知和功耗感知调度框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型推理 云平台 热管理 功耗管理 资源调度 SaaS GPU集群

📋 核心要点

现有云平台LLM推理在热管理和功耗管理方面面临挑战，传统方法难以应对LLM推理的细粒度执行特性。
TAPAS框架利用历史数据和SaaS工作负载的灵活性，实现热感知和功耗感知的LLM推理调度和资源管理。
实验表明，TAPAS能有效减少热和功耗限制事件，提升系统效率，降低总拥有成本。

📝 摘要（中文）

生成式大语言模型（LLM）的日益增长的需求给云数据中心的热管理和功耗管理带来了挑战。传统的管理技术通常不足以应对LLM推理，因为LLM推理具有细粒度的、毫秒级的执行阶段，每个阶段都有不同的性能、热和功耗特性。此外，LLM推理工作负载对各种配置参数（例如，模型并行性、大小和量化）敏感，这些参数涉及性能、温度、功耗和输出质量之间的权衡。而且，云通常共置SaaS和IaaS工作负载，每个工作负载具有不同级别的可见性和灵活性。我们提出了TAPAS，一个为云中LLM推理集群设计的热感知和功耗感知框架。TAPAS增强了冷却和功耗超额订阅能力，降低了总拥有成本（TCO），同时有效地处理紧急情况（例如，冷却和电源故障）。该系统利用历史温度和功耗数据，以及SaaS工作负载的适应性，来：（1）在冷却和功耗约束内有效地放置新的GPU工作负载VM，（2）跨SaaS VM路由LLM推理请求，以及（3）重新配置SaaS VM以管理负载峰值和紧急情况。我们在大型GPU集群上的评估表明，热和功耗限制事件显著减少，从而提高了系统效率。

🔬 方法详解

问题定义：论文旨在解决云平台中LLM推理任务的热管理和功耗管理问题。现有方法无法有效应对LLM推理的细粒度执行特性，导致资源利用率低、易触发热限制和功耗限制，进而影响服务质量和增加运营成本。此外，云环境中SaaS和IaaS工作负载的共存增加了管理的复杂性。

核心思路：TAPAS的核心思路是利用历史温度和功耗数据，以及SaaS工作负载的适应性，实现热感知和功耗感知的LLM推理调度和资源管理。通过预测不同配置下的性能、温度和功耗，优化资源分配，避免过载，并能动态调整SaaS工作负载以应对突发情况。

技术框架：TAPAS框架包含三个主要模块：(1) GPU工作负载VM放置：根据冷却和功耗约束，将新的GPU工作负载VM放置在合适的物理机上。(2) LLM推理请求路由：跨SaaS VM路由LLM推理请求，以平衡负载和避免过热。(3) SaaS VM重新配置：在负载峰值或紧急情况下，重新配置SaaS VM，例如调整模型并行度或量化级别，以降低功耗和温度。

关键创新：TAPAS的关键创新在于其热感知和功耗感知的调度策略，能够充分利用云平台的资源，同时避免过载和紧急情况。与传统方法相比，TAPAS能够更精细地控制资源分配，并能动态调整SaaS工作负载以适应变化的需求。

关键设计：TAPAS使用历史数据训练预测模型，预测不同配置下的性能、温度和功耗。在VM放置和请求路由时，TAPAS使用这些预测模型来优化资源分配，并避免超过冷却和功耗限制。SaaS VM重新配置策略基于预定义的规则和阈值，例如，当温度超过某个阈值时，降低模型并行度或增加量化级别。

🖼️ 关键图片

📊 实验亮点

在大型GPU集群上的评估表明，TAPAS能够显著减少热和功耗限制事件，从而提高系统效率。具体而言，TAPAS能够将热限制事件减少高达50%，功耗限制事件减少高达40%，同时保持或提高LLM推理的性能。

🎯 应用场景

TAPAS可应用于各种云平台中的LLM推理服务，提高资源利用率，降低运营成本，并提升服务质量。该框架还可扩展到其他类型的计算密集型工作负载，例如深度学习训练和科学计算，具有广泛的应用前景。

📄 摘要（原文）

The rising demand for generative large language models (LLMs) poses challenges for thermal and power management in cloud datacenters. Traditional techniques often are inadequate for LLM inference due to the fine-grained, millisecond-scale execution phases, each with distinct performance, thermal, and power profiles. Additionally, LLM inference workloads are sensitive to various configuration parameters (e.g., model parallelism, size, and quantization) that involve trade-offs between performance, temperature, power, and output quality. Moreover, clouds often co-locate SaaS and IaaS workloads, each with different levels of visibility and flexibility. We propose TAPAS, a thermal- and power-aware framework designed for LLM inference clusters in the cloud. TAPAS enhances cooling and power oversubscription capabilities, reducing the total cost of ownership (TCO) while effectively handling emergencies (e.g., cooling and power failures). The system leverages historical temperature and power data, along with the adaptability of SaaS workloads, to: (1) efficiently place new GPU workload VMs within cooling and power constraints, (2) route LLM inference requests across SaaS VMs, and (3) reconfigure SaaS VMs to manage load spikes and emergency situations. Our evaluation on a large GPU cluster demonstrates significant reductions in thermal and power throttling events, boosting system efficiency.

TAPAS: Thermal- and Power-Aware Scheduling for LLM Inference in Cloud Platforms

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理