EnergyLens: Interpretable Closed-Form Energy Models for Multimodal LLM Inference Serving

📄 arXiv: 2605.10556v1 📥 PDF

作者: Vittorio Palladino, Gianluca Palermo, Michael E. Papka, Zhiling Lan

分类: cs.CV, cs.LG

发布日期: 2026-05-11

备注: 10 pages


💡 一句话要点

提出EnergyLens:一种基于符号回归的闭式能耗模型,实现多模态大模型推理的能效优化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大模型推理 能效优化 符号回归 闭式模型 异构计算 系统可解释性

📋 核心要点

  1. 现有方法常以延迟作为能耗代理,或依赖黑盒模型,难以应对多模态大模型在异构硬件上复杂的并行策略,且泛化性较差。
  2. 提出EnergyLens,通过符号回归技术从少量分析数据中构建包含12个参数的闭式能耗模型,实现对推理能耗的精确建模。
  3. 实验表明,该方法仅需50个样本即可达到88.2%的配置选择准确率,在不同硬件和模型架构下均表现出极强的可解释性与泛化能力。

📝 摘要(中文)

随着大语言模型架构(如稠密模型、混合专家模型、状态空间模型)的多样化及异构加速器部署的普及,推理能耗优化已成为与延迟和吞吐量同等重要的指标。现有方法常将延迟作为能耗代理,或依赖数据密集型的黑盒代理模型,但在不同并行策略下表现不佳——实验显示超过20%的配置中延迟与能耗最优解不一致,且黑盒模型泛化能力差。本文提出EnergyLens,利用符号回归从分析数据中提取包含12个参数的闭式能耗模型,涵盖并行度、批大小及序列长度等系统属性。与黑盒模型不同,EnergyLens解耦了张量与流水线并行贡献,并区分了预填充与解码阶段能耗,具备物理可解释性。仅需50个样本即可拟合,在配置选择准确率上达到88.2%,远超基线,且在未见过的硬件和批大小上展现出卓越的泛化能力。

🔬 方法详解

问题定义:论文旨在解决大模型推理部署中能耗预测不准的问题。现有痛点在于:一是延迟与能耗在复杂并行配置下并不正相关(偏差超20%);二是黑盒代理模型需要海量数据训练,且缺乏物理意义,难以指导实际的系统优化。

核心思路:采用符号回归(Symbolic Regression)作为结构发现工具,将复杂的能耗行为建模为具有物理意义的闭式方程。这种方法旨在通过极少量数据捕捉系统属性(如并行度、Batch Size等)与能耗之间的数学关系,从而实现可解释的预测。

技术框架:EnergyLens首先通过对目标模型在特定硬件上进行少量采样分析,获取能耗数据;随后利用符号回归算法在预定义的参数空间内搜索最优数学表达式;最后将模型解耦为张量并行、流水线并行以及预填充/解码阶段的加性分量,形成最终的预测模型。

关键创新:最大的创新在于将“黑盒拟合”转变为“结构发现”。通过显式解耦不同并行维度的能耗贡献,使得模型不仅能预测能耗,还能解释为何特定配置更节能,从而为系统架构师提供可操作的优化建议。

关键设计:模型设计为包含12个参数的闭式方程,能够直接映射系统属性。其核心优势在于极高的数据效率,仅需50个采样点即可完成拟合,且无需针对不同硬件进行结构性修改即可实现跨平台泛化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EnergyLens在配置选择任务中实现了88.2%的Top-1准确率,显著优于基线方法的60.9%。该模型仅需50个样本即可达到与集成学习方法相当的预测精度,且样本需求量降低了10倍,在未见过的硬件平台和批处理规模上展现出极强的鲁棒性与泛化性能。

🎯 应用场景

该研究适用于云端与边缘端的大模型推理部署场景。通过EnergyLens,系统工程师可以在资源受限或追求绿色计算的环境下,快速寻找最优的并行策略与批处理配置,显著降低多模态大模型在异构加速器集群上的运行能耗,提升整体能效比。

📄 摘要(原文)

As large language models span dense, mixture-of-experts, and state-space architectures and are deployed on heterogeneous accelerators under increasingly diverse multimodal workloads, optimising inference energy has become as critical as optimizing latency and throughput. Existing approaches either treat latency as an energy proxy or rely on data-hungry black-box surrogates. Both fail under varying parallelism strategies: latency and energy optima diverge in over 20% of configurations we tested, and black-box surrogates require hundreds of profiling samples to generalize across model families and hardware. We present EnergyLens, which uses symbolic regression as a structure-discovery tool over profiling data to derive a single twelve-parameter closed-form energy model expressed in terms of system properties such as degree of parallelism, batch size, and sequence length. Unlike black-box surrogates, EnergyLens decouples tensor and pipeline parallelism contributions and separates prefill from decode energy, making its predictions physically interpretable and actionable. Fitted from as few as 50 profiling measurements, EnergyLens achieves 88.2% Top-1 configuration selection accuracy across many evaluation scenarios compared to 60.9% for the closest prior analytical baseline, matches the predictive accuracy of ensemble ML methods with 10x fewer profiling samples, and extrapolates reliably to unseen batch sizes and hardware platforms without structural modification, making it a practical, interpretable tool for energy-optimal LLM deployment.