VoltanaLLM: Feedback-Driven Frequency Control and State-Space Routing for Energy-Efficient LLM Serving

作者: Jiahuan Yu, Aryan Taneja, Junfeng Lin, Minjia Zhang

分类: cs.DC, cs.AI, cs.LG

发布日期: 2025-09-05 (更新: 2025-09-14)

🔗 代码/项目: GITHUB

💡 一句话要点

VoltanaLLM：面向节能LLM服务的反馈驱动频率控制与状态空间路由

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 节能服务 频率控制 请求路由 控制理论 服务水平目标 预填充/解码分离

📋 核心要点

现有LLM服务面临高昂的能源成本，阻碍了其可持续和经济高效的部署，尤其是在交互式应用中。
VoltanaLLM通过控制理论方法，协同设计频率缩放和请求路由，实现细粒度的阶段特定能源控制。
实验表明，VoltanaLLM在保证服务质量的前提下，能够显著降低LLM推理的能源消耗，最高可达36.3%。

📝 摘要（中文）

现代大型语言模型（LLM）服务系统越来越多地支持交互式应用，如实时聊天助手、代码生成工具和智能体工作流。然而，LLM推理的能源成本急剧上升，对可持续和经济高效的部署提出了日益严峻的挑战。本文介绍了一种面向服务水平目标（SLO）感知、节能LLM服务的系统VoltanaLLM，该系统从控制理论的角度构建。VoltanaLLM共同设计了新兴的预填充/解码分离架构中的频率缩放和请求路由，利用它们解耦的执行来实现细粒度的阶段特定控制。它由一个反馈驱动的频率控制器组成，该控制器动态地调整预填充和解码阶段的GPU频率，以及一个状态空间路由器，该路由器探索跨频率缩放实例的路由决策，以在延迟约束下最小化能量。我们在SGLang中实现了VoltanaLLM，并在多个最先进的LLM和真实世界数据集上评估了其性能。结果表明，VoltanaLLM在保持近乎完美的SLO达成率的同时，实现了高达36.3%的节能效果，为可持续和智能的LLM服务铺平了道路。VoltanaLLM的代码已在GitHub上开源。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）服务中日益增长的能源消耗问题。现有的LLM服务系统在支持交互式应用时，面临着高昂的推理成本，这使得可持续和经济高效的部署变得困难。现有的方法通常缺乏对预填充和解码阶段的细粒度控制，并且没有充分利用新兴的预填充/解码分离架构的优势。

核心思路：VoltanaLLM的核心思路是从控制理论的角度出发，通过反馈驱动的频率控制和状态空间路由，实现对LLM推理过程的精细化能源管理。通过动态调整GPU频率和优化请求路由，在满足服务水平目标（SLO）的前提下，最小化能源消耗。

技术框架：VoltanaLLM的整体架构包含两个主要模块：反馈驱动的频率控制器和状态空间路由器。频率控制器负责动态调整GPU在预填充和解码阶段的频率，以适应不同的计算需求。状态空间路由器则根据当前的系统状态和请求特征，将请求路由到不同的频率缩放实例，以实现全局的能源优化。这两个模块协同工作，共同实现节能的LLM服务。

关键创新：VoltanaLLM的关键创新在于其协同设计了频率缩放和请求路由，并将其应用于新兴的预填充/解码分离架构。这种协同设计使得系统能够对LLM推理过程进行细粒度的控制，从而实现更高的能源效率。与现有方法相比，VoltanaLLM能够更好地适应不同的工作负载和服务水平目标。

关键设计：频率控制器采用反馈控制机制，根据实际的延迟和吞吐量等指标，动态调整GPU频率。状态空间路由器则使用状态空间模型来描述系统的动态行为，并使用优化算法来寻找最优的路由策略。具体的参数设置和优化算法的选择需要根据实际的应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

VoltanaLLM在多个最先进的LLM和真实世界数据集上进行了评估，实验结果表明，在保持近乎完美的SLO达成率的同时，VoltanaLLM实现了高达36.3%的节能效果。这一显著的节能效果证明了VoltanaLLM在降低LLM服务能源消耗方面的有效性。

🎯 应用场景

VoltanaLLM适用于各种需要大规模LLM推理服务的场景，例如实时聊天机器人、代码生成工具和智能体工作流。该研究成果有助于降低LLM服务的运营成本，提高能源利用效率，并促进LLM技术的可持续发展。未来，VoltanaLLM可以进一步扩展到支持更多类型的LLM模型和硬件平台，并与其他节能技术相结合，以实现更高效的LLM服务。

📄 摘要（原文）

Modern Large Language Model (LLM) serving systems increasingly support interactive applications, like real-time chat assistants, code generation tools, and agentic workflows. However, the soaring energy cost of LLM inference presents a growing challenge for sustainable and cost-effective deployment. This paper introduces VoltanaLLM, a system for SLO-aware, energy-efficient LLM serving, built from a control theory perspective. VoltanaLLM co-designs frequency scaling and request routing in emerging prefill/decode disaggregated architectures, leveraging their decoupled execution to enable fine-grained phase-specific control. It consists of a feedback-driven frequency controller that dynamically adapts GPU frequency for prefill and decode phases, and a state-space router that explores routing decisions across frequency-scaled instances to minimize energy under latency constraints. We implement VoltanaLLM in SGLang and evaluate its performance over multiple state-of-the-art LLMs and real-world datasets. The results demonstrate that VoltanaLLM achieves up to 36.3% energy savings while maintaining near-perfect SLO attainment rate, paving the way for sustainable and intelligent LLM serving. Code of VoltanaLLM is open-sourced on GitHub: https://github.com/Supercomputing-System-AI-Lab/VoltanaLLM.

VoltanaLLM: Feedback-Driven Frequency Control and State-Space Routing for Energy-Efficient LLM Serving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理