Reducing Compute Waste in LLMs through Kernel-Level DVFS

作者: Jeffrey Spaan, Kuan-Hsun Chen, Ana-Lucia Varbanescu

分类: cs.PF, cs.LG

发布日期: 2026-01-13

💡 一句话要点

提出基于内核级DVFS的LLM节能方法，在保证性能前提下显著降低计算浪费。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 动态电压频率调整 内核级优化 能源效率 GPU加速

📋 核心要点

大型语言模型训练和推理能耗巨大，现有DVFS方法虽能节能，但常伴随显著性能下降。
提出内核级细粒度DVFS方法，针对LLM操作中的计算浪费，探索新的频率配置以优化能耗。
实验表明，该方法在GPT-3训练中比pass-level DVFS节能效果显著，且性能损失极小。

📝 摘要（中文）

人工智能的快速发展推动了基于加速器或GPU的数据中心的扩张。然而，运营能源消耗的上升已成为一个关键瓶颈和主要的可持续性问题。动态电压和频率调整(DVFS)是一种众所周知的降低能耗从而提高能源效率的技术，因为它只需要很少的努力并且可以与现有硬件一起工作。通过DVFS或功率封顶来降低大型语言模型(LLM)的训练和推理能耗是可行的：相关工作表明，节能效果可能很显著，但代价是显著的减速。在这项工作中，我们专注于减少LLM操作中的浪费：即，在不损失性能的情况下降低能耗。我们提出了一种细粒度的、内核级的DVFS方法，该方法探索了新的频率配置，并证明这些配置比以前的、pass-或迭代级的解决方案节省更多的能量。例如，对于GPT-3训练运行，pass-level方法可以减少2%的能耗(不损失性能)，而我们的kernel-level方法可以节省高达14.6%的能耗(减速0.6%)。我们进一步研究了数据和张量并行性的影响，并表明我们发现的时钟频率可以很好地适用于两者。我们得出结论，内核级DVFS是一种适合减少LLM操作浪费的技术，可以在可忽略不计的减速下提供显著的节能效果。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）训练和推理过程中存在的能源浪费问题。现有的动态电压和频率调整（DVFS）方法虽然可以降低能耗，但通常以牺牲性能为代价，导致训练速度显著下降。因此，如何在不显著降低性能的前提下，最大限度地降低LLM的能耗是本研究要解决的核心问题。

核心思路：论文的核心思路是采用细粒度的内核级DVFS方法，针对LLM操作中的不同内核，动态调整电压和频率。通过精确识别计算密集型和非计算密集型内核，并为它们配置合适的频率，从而在保证整体性能的同时，降低能源消耗。这种方法避免了传统pass-level或迭代级DVFS的粗粒度调整，能够更有效地减少计算浪费。

技术框架：该方法首先对LLM的训练或推理过程进行剖析，识别出不同的内核函数。然后，针对每个内核，探索不同的电压和频率配置，并通过实验确定最佳配置。最后，在运行时，根据当前执行的内核，动态调整GPU的电压和频率。整个框架包含内核剖析、频率配置探索和运行时动态调整三个主要阶段。

关键创新：该研究的关键创新在于将DVFS技术应用到内核级别，实现了细粒度的能耗优化。与传统的pass-level或迭代级DVFS相比，内核级DVFS能够更精确地识别和消除计算浪费，从而在保证性能的同时，显著降低能耗。此外，该研究还探索了数据和张量并行性对DVFS效果的影响，并验证了所提出的方法在不同并行策略下的有效性。

关键设计：在频率配置探索阶段，论文采用了一种基于实验的方法，通过对不同的频率组合进行测试，并测量其能耗和性能，从而确定最佳配置。具体的参数设置和损失函数未知，但可以推测目标是最小化能耗，同时保证性能损失在可接受的范围内。论文中没有明确提及网络结构，但可以推断该方法适用于各种基于Transformer的LLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该内核级DVFS方法在GPT-3训练中，相比于pass-level DVFS，能够节省高达14.6%的能量，而性能损失仅为0.6%。此外，该方法在数据和张量并行场景下也表现出良好的节能效果，验证了其通用性和有效性。

🎯 应用场景

该研究成果可广泛应用于各种基于GPU的LLM训练和推理场景，尤其是在对能耗敏感的数据中心和边缘设备上。通过降低LLM的能耗，可以有效降低运营成本，提高资源利用率，并减少碳排放，从而促进人工智能的可持续发展。

📄 摘要（原文）

The rapid growth of AI has fueled the expansion of accelerator- or GPU-based data centers. However, the rising operational energy consumption has emerged as a critical bottleneck and a major sustainability concern. Dynamic Voltage and Frequency Scaling (DVFS) is a well-known technique used to reduce energy consumption, and thus improve energy-efficiency, since it requires little effort and works with existing hardware. Reducing the energy consumption of training and inference of Large Language Models (LLMs) through DVFS or power capping is feasible: related work has shown energy savings can be significant, but at the cost of significant slowdowns. In this work, we focus on reducing waste in LLM operations: i.e., reducing energy consumption without losing performance. We propose a fine-grained, kernel-level, DVFS approach that explores new frequency configurations, and prove these save more energy than previous, pass- or iteration-level solutions. For example, for a GPT-3 training run, a pass-level approach could reduce energy consumption by 2% (without losing performance), while our kernel-level approach saves as much as 14.6% (with a 0.6% slowdown). We further investigate the effect of data and tensor parallelism, and show our discovered clock frequencies translate well for both. We conclude that kernel-level DVFS is a suitable technique to reduce waste in LLM operations, providing significant energy savings with negligible slow-down.

Reducing Compute Waste in LLMs through Kernel-Level DVFS

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理