Reducing Compute Waste in LLMs through Kernel-Level DVFS
作者: Jeffrey Spaan, Kuan-Hsun Chen, Ana-Lucia Varbanescu
分类: cs.PF, cs.LG
发布日期: 2026-01-13
💡 一句话要点
提出基于内核级DVFS的LLM节能方法,在保证性能前提下显著降低计算浪费。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 动态电压频率调整 内核级优化 能源效率 GPU加速
📋 核心要点
- 大型语言模型训练和推理能耗巨大,现有DVFS方法虽能节能,但常伴随显著性能下降。
- 提出内核级细粒度DVFS方法,针对LLM操作中的计算浪费,探索新的频率配置以优化能耗。
- 实验表明,该方法在GPT-3训练中比pass-level DVFS节能效果显著,且性能损失极小。
📝 摘要(中文)
人工智能的快速发展推动了基于加速器或GPU的数据中心的扩张。然而,运营能源消耗的上升已成为一个关键瓶颈和主要的可持续性问题。动态电压和频率调整(DVFS)是一种众所周知的降低能耗从而提高能源效率的技术,因为它只需要很少的努力并且可以与现有硬件一起工作。通过DVFS或功率封顶来降低大型语言模型(LLM)的训练和推理能耗是可行的:相关工作表明,节能效果可能很显著,但代价是显著的减速。在这项工作中,我们专注于减少LLM操作中的浪费:即,在不损失性能的情况下降低能耗。我们提出了一种细粒度的、内核级的DVFS方法,该方法探索了新的频率配置,并证明这些配置比以前的、pass-或迭代级的解决方案节省更多的能量。例如,对于GPT-3训练运行,pass-level方法可以减少2%的能耗(不损失性能),而我们的kernel-level方法可以节省高达14.6%的能耗(减速0.6%)。我们进一步研究了数据和张量并行性的影响,并表明我们发现的时钟频率可以很好地适用于两者。我们得出结论,内核级DVFS是一种适合减少LLM操作浪费的技术,可以在可忽略不计的减速下提供显著的节能效果。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)训练和推理过程中存在的能源浪费问题。现有的动态电压和频率调整(DVFS)方法虽然可以降低能耗,但通常以牺牲性能为代价,导致训练速度显著下降。因此,如何在不显著降低性能的前提下,最大限度地降低LLM的能耗是本研究要解决的核心问题。
核心思路:论文的核心思路是采用细粒度的内核级DVFS方法,针对LLM操作中的不同内核,动态调整电压和频率。通过精确识别计算密集型和非计算密集型内核,并为它们配置合适的频率,从而在保证整体性能的同时,降低能源消耗。这种方法避免了传统pass-level或迭代级DVFS的粗粒度调整,能够更有效地减少计算浪费。
技术框架:该方法首先对LLM的训练或推理过程进行剖析,识别出不同的内核函数。然后,针对每个内核,探索不同的电压和频率配置,并通过实验确定最佳配置。最后,在运行时,根据当前执行的内核,动态调整GPU的电压和频率。整个框架包含内核剖析、频率配置探索和运行时动态调整三个主要阶段。
关键创新:该研究的关键创新在于将DVFS技术应用到内核级别,实现了细粒度的能耗优化。与传统的pass-level或迭代级DVFS相比,内核级DVFS能够更精确地识别和消除计算浪费,从而在保证性能的同时,显著降低能耗。此外,该研究还探索了数据和张量并行性对DVFS效果的影响,并验证了所提出的方法在不同并行策略下的有效性。
关键设计:在频率配置探索阶段,论文采用了一种基于实验的方法,通过对不同的频率组合进行测试,并测量其能耗和性能,从而确定最佳配置。具体的参数设置和损失函数未知,但可以推测目标是最小化能耗,同时保证性能损失在可接受的范围内。论文中没有明确提及网络结构,但可以推断该方法适用于各种基于Transformer的LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该内核级DVFS方法在GPT-3训练中,相比于pass-level DVFS,能够节省高达14.6%的能量,而性能损失仅为0.6%。此外,该方法在数据和张量并行场景下也表现出良好的节能效果,验证了其通用性和有效性。
🎯 应用场景
该研究成果可广泛应用于各种基于GPU的LLM训练和推理场景,尤其是在对能耗敏感的数据中心和边缘设备上。通过降低LLM的能耗,可以有效降低运营成本,提高资源利用率,并减少碳排放,从而促进人工智能的可持续发展。
📄 摘要(原文)
The rapid growth of AI has fueled the expansion of accelerator- or GPU-based data centers. However, the rising operational energy consumption has emerged as a critical bottleneck and a major sustainability concern. Dynamic Voltage and Frequency Scaling (DVFS) is a well-known technique used to reduce energy consumption, and thus improve energy-efficiency, since it requires little effort and works with existing hardware. Reducing the energy consumption of training and inference of Large Language Models (LLMs) through DVFS or power capping is feasible: related work has shown energy savings can be significant, but at the cost of significant slowdowns. In this work, we focus on reducing waste in LLM operations: i.e., reducing energy consumption without losing performance. We propose a fine-grained, kernel-level, DVFS approach that explores new frequency configurations, and prove these save more energy than previous, pass- or iteration-level solutions. For example, for a GPT-3 training run, a pass-level approach could reduce energy consumption by 2% (without losing performance), while our kernel-level approach saves as much as 14.6% (with a 0.6% slowdown). We further investigate the effect of data and tensor parallelism, and show our discovered clock frequencies translate well for both. We conclude that kernel-level DVFS is a suitable technique to reduce waste in LLM operations, providing significant energy savings with negligible slow-down.