PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

📄 arXiv: 2605.21427v1 📥 PDF

作者: Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun

分类: cs.AI, cs.DC

发布日期: 2026-05-20

备注: 13 pages, 10 figures


💡 一句话要点

PALS:面向混合专家模型的功耗感知LLM服务系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM推理 功耗感知 能源效率 混合专家模型 动态功率控制 vLLM

📋 核心要点

  1. 现有LLM服务系统未能充分利用GPU功耗控制,将其视为静态约束,导致能源效率低下。
  2. PALS将GPU功耗上限作为可控变量,结合离线模型和反馈控制器,动态优化配置。
  3. 实验表明,PALS在提升能源效率、降低QoS违规和适应动态功率预算方面表现出色。

📝 摘要(中文)

大型语言模型(LLM)推理已成为现代数据中心的主要工作负载,显著提高了GPU利用率和能源消耗。现有系统主要通过批处理、调度和并行化来优化吞吐量和延迟,但大多将GPU功耗视为静态约束而非可控资源。本文提出了一个用于LLM服务的功耗感知运行时系统PALS,将GPU功耗上限作为首要控制旋钮,并将其与批大小等软件参数联合优化。该系统结合了轻量级的离线功耗-性能模型和反馈驱动的控制器,以选择满足吞吐量目标同时最大化能源效率的配置。PALS在现有的LLM服务框架vLLM中实现,无需模型重新训练或API更改。在多GPU系统以及稠密和混合专家(MoE)模型上,PALS将能源效率提高了高达26.3%,在功率约束下将QoS违规降低了4到7倍,并跟踪了动态功率预算。这些结果突出了将功率控制直接集成到LLM推理运行时中的潜力,从而实现能源比例和电网交互式AI系统。

🔬 方法详解

问题定义:现有LLM服务系统在优化吞吐量和延迟时,通常忽略了GPU功耗的可控性,将其视为一个静态约束。这种做法导致能源效率低下,无法充分利用硬件资源,尤其是在功率受限的环境下。现有方法缺乏根据实际功率预算动态调整服务配置的能力,导致服务质量下降。

核心思路:PALS的核心思路是将GPU功耗上限视为一个可以动态调整的控制旋钮,并将其与软件参数(如批大小)联合优化。通过建立功耗-性能模型,并结合反馈控制,PALS能够根据实际的吞吐量需求和功率预算,自动选择最佳的服务配置,从而在满足性能要求的同时,最大化能源效率。

技术框架:PALS的整体架构包含以下几个主要模块:1) 离线功耗-性能建模:使用轻量级的模型来预测不同配置下的功耗和性能。2) 反馈驱动的控制器:根据实际的吞吐量和功率消耗,动态调整GPU功耗上限和软件参数。3) LLM服务框架集成:PALS被集成到现有的LLM服务框架vLLM中,无需修改模型或API。

关键创新:PALS的关键创新在于将GPU功耗控制与LLM服务运行时紧密结合,实现功耗感知的动态优化。与现有方法相比,PALS能够根据实际的功率预算和性能需求,自适应地调整服务配置,从而在保证服务质量的同时,最大化能源效率。这种方法使得LLM服务能够更好地适应动态的功率环境,并为构建能源比例和电网交互式AI系统奠定了基础。

关键设计:PALS的关键设计包括:1) 轻量级功耗-性能模型:采用易于训练和部署的模型,以减少额外的计算开销。2) 反馈控制器的设计:使用PID控制器或其他控制算法,根据实际的吞吐量和功率消耗,动态调整GPU功耗上限和软件参数。3) 与vLLM的集成:通过修改vLLM的底层代码,将PALS的功耗控制功能集成到现有的服务框架中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PALS在多GPU系统以及稠密和混合专家(MoE)模型上进行了评估。实验结果表明,PALS可以将能源效率提高高达26.3%,在功率约束下将QoS违规降低4到7倍,并能够有效地跟踪动态功率预算。这些结果表明,PALS是一种有效的功耗感知LLM服务系统,可以显著提高能源效率和服务质量。

🎯 应用场景

PALS适用于各种需要高效LLM推理的场景,例如数据中心、边缘计算设备和移动设备。通过优化能源效率,PALS可以降低运营成本,延长设备寿命,并减少碳排放。此外,PALS还可以用于构建电网交互式AI系统,根据电网的供电情况动态调整LLM服务的功耗,从而提高电网的稳定性和可靠性。

📄 摘要(原文)

Large language model (LLM) inference has become a dominant workload in modern data centers, driving significant GPU utilization and energy consumption. While prior systems optimize throughput and latency by batching, scheduling, and parallelism, they largely treat GPU power as a static constraint rather than a controllable resource. In this paper, we present a power-aware runtime for LLM serving, PALS, that treats GPU power caps as a first-class control knob and jointly optimizes them with software parameters such as batch size. The system combines lightweight offline power-performance models with a feedback-driven controller to select configurations that satisfy throughput targets while maximizing energy efficiency. We implement PALS within an existing LLM serving framework, vLLM, demonstrating that it requires no model retraining or API changes. Across multi-GPU systems and both dense and mixture-of-experts (MoE) models, PALS improves energy efficiency by up to 26.3%, reduces QoS violations by 4x to 7x under power constraints, and tracks dynamic power budgets. These results highlight the potential of integrating power control directly into LLM inference runtimes, enabling energy-proportional and grid-interactive AI systems.