Watt Counts: Energy-Aware Benchmark for Sustainable LLM Inference on Heterogeneous GPU Architectures
作者: Mauricio Fadel Argerich, Jonathan Fürst, Marta Patiño-Martínez
分类: cs.DC, cs.AI
发布日期: 2026-04-10
备注: Under review
💡 一句话要点
Watt Counts:针对异构GPU上可持续LLM推理的能耗感知基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 能耗评估 异构GPU 基准测试 可持续AI LLM推理 硬件选择
📋 核心要点
- 现有LLM推理部署缺乏能耗感知基准,难以在异构硬件上实现节能优化。
- Watt Counts提供了一个大型开放数据集和基准测试,用于评估不同GPU上LLM的能耗。
- 实验表明,GPU选择对能效影响显著,硬件感知部署可显著降低能耗。
📝 摘要(中文)
大型语言模型(LLM)的巨大能耗已引起广泛关注,但由于缺乏能耗感知基准和数据,系统运维人员在利用异构硬件的能源权衡来实现节能高效的LLM推理部署方面缺乏指导。本文通过Watt Counts填补了这一空白:它是一个最大的LLM能耗开放访问数据集,包含5000多个实验,涵盖10个NVIDIA GPU上的50个LLM,包括批量和服务器场景。同时,论文还提供了一个可复现的开源基准,支持社区提交以扩展该数据集。利用该数据集,我们对异构GPU架构上的LLM推理进行了系统级研究,表明GPU选择对于能效至关重要,并且最佳硬件选择因模型和部署场景而异,突出了硬件感知部署在异构LLM系统中的重要性。在数据和洞察的指导下,我们表明,从业者可以在服务器场景中将能耗降低高达70%,而对用户体验的影响可以忽略不计,在批量场景中可以降低高达20%。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)推理部署在异构GPU架构上,缺乏统一的能耗评估标准和数据集。系统运维人员难以根据不同模型和部署场景选择最优的GPU配置,从而导致能源浪费和效率低下。现有的方法通常侧重于性能优化,而忽略了能耗方面的考量。
核心思路:论文的核心思路是构建一个全面的能耗感知基准测试框架和数据集,Watt Counts,用于评估不同LLM在不同NVIDIA GPU上的能耗表现。通过对大量实验数据的分析,揭示不同GPU在不同模型和部署场景下的能效差异,为系统运维人员提供硬件选择的指导。
技术框架:Watt Counts基准测试框架包含以下主要组成部分:1) LLM模型库:涵盖50个不同的LLM模型。2) GPU硬件平台:包括10个不同的NVIDIA GPU。3) 部署场景:支持批量和服务器两种常见的LLM推理部署场景。4) 能耗测量工具:精确测量GPU在推理过程中的能耗。5) 数据集:包含超过5000个实验的能耗数据。6) 开源基准:提供可复现的实验代码和数据,方便社区参与和扩展。
关键创新:该论文的关键创新在于构建了一个大规模、开放访问的LLM能耗数据集和基准测试框架。与现有方法相比,Watt Counts更加关注能耗方面的评估,并提供了异构GPU架构下的能效对比数据。此外,Watt Counts的开源特性也促进了社区的参与和贡献,有助于构建更加完善的LLM能耗评估体系。
关键设计:Watt Counts的关键设计包括:1) 选择了具有代表性的LLM模型和NVIDIA GPU,覆盖了不同的模型大小和硬件架构。2) 采用了精确的能耗测量工具,确保数据的准确性。3) 提供了批量和服务器两种部署场景,模拟了实际应用中的不同情况。4) 设计了可复现的实验流程,方便社区参与和验证。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPU选择对LLM推理的能效影响显著。在服务器场景中,通过选择合适的GPU,可以将能耗降低高达70%,而对用户体验的影响可以忽略不计。在批量场景中,也可以降低高达20%的能耗。此外,实验还揭示了不同GPU在不同模型和部署场景下的能效差异,为硬件选择提供了有价值的参考。
🎯 应用场景
该研究成果可应用于各种需要部署LLM推理服务的场景,例如云服务提供商、AI芯片厂商和企业级AI应用。通过Watt Counts提供的数据和基准,用户可以根据自身的需求选择最节能高效的GPU配置,降低运营成本,并减少碳排放。未来,该研究可以扩展到其他类型的AI模型和硬件平台,为构建可持续的AI生态系统做出贡献。
📄 摘要(原文)
While the large energy consumption of Large Language Models (LLMs) is recognized by the community, system operators lack guidance for energy-efficient LLM inference deployments that leverage energy trade-offs of heterogeneous hardware due to a lack of energy-aware benchmarks and data. In this work we address this gap with Watt Counts: the largest open-access dataset of energy consumption of LLMs, with over 5,000 experiments for 50 LLMs across 10 NVIDIA Graphics Processing Units (GPUs) in batch and server scenarios along with a reproducible, open-source benchmark that enables community submissions to expand this dataset. Leveraging this dataset, we conduct a system-level study of LLM inference across heterogeneous GPU architectures and show that GPU selection is crucial for energy efficiency outcomes and that optimal hardware choices vary significantly across models and deployment scenarios, demonstrating the critical importance of hardware-aware deployment in heterogeneous LLM systems. Guided by our data and insights, we show that practitioners can reduce energy consumption by up to 70% in server scenarios with negligible impact on user experience, and by up to 20% in batch scenarios.