Prefill vs. Decode Bottlenecks: SRAM-Frequency Tradeoffs and the Memory-Bandwidth Ceiling

📄 arXiv: 2512.22066v1 📥 PDF

作者: Hannah Atmer, Yuan Yao, Thiemo Voigt, Stefanos Kaxiras

分类: cs.AR, cs.LG, cs.PF

发布日期: 2025-12-26


💡 一句话要点

研究SRAM频率权衡与内存带宽瓶颈,优化LLM推理能效

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM推理 能效优化 SRAM 内存带宽 硬件加速器 能量延迟积 预填充 解码

📋 核心要点

  1. 现有LLM部署的成本和环境影响主要受限于能耗,需要深入理解硬件配置对能效的影响。
  2. 通过模拟不同SRAM大小和工作频率,分析预填充和解码阶段的能耗与延迟,寻找最佳硬件配置。
  3. 实验表明高频率和小缓存结合能实现最佳能效,并揭示内存带宽是性能瓶颈,为LLM加速器设计提供指导。

📝 摘要(中文)

本文研究了片上SRAM大小和工作频率对LLM推理能效和性能的影响,重点关注计算密集型的预填充(prefill)阶段和内存密集型的解码(decode)阶段的不同行为。研究方法结合了OpenRAM用于能量建模、LLMCompass用于延迟模拟以及ScaleSIM用于片上运算强度模拟。结果表明,总能量消耗主要由两个阶段的SRAM大小决定,较大的缓冲区会显著增加静态能量,且泄漏无法通过延迟收益来抵消。定量分析了内存带宽瓶颈,表明高工作频率降低了预填充延迟,但其对内存受限的解码延迟的积极影响受到外部内存带宽的限制。反直觉的是,高计算频率可以通过减少执行时间来降低总能量,从而减少静态能量消耗,超过动态功耗的增加。确定了模拟工作负载的最佳硬件配置:高工作频率(1200MHz-1400MHz)和32KB至64KB的小型本地缓冲区。这种组合实现了最佳的能量延迟积,平衡了低延迟和高能效。此外,证明了内存带宽如何充当性能上限,并且提高计算频率只能在工作负载变为内存受限之前产生性能提升。该分析为设计节能LLM加速器提供了具体的架构见解,特别是对于旨在最大限度地减少能源开销的数据中心。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)推理过程中,片上SRAM大小和工作频率对能效和性能的影响问题。现有方法未能充分理解预填充和解码阶段的不同特性,以及SRAM大小和工作频率之间的权衡关系,导致LLM加速器设计缺乏针对性的优化策略。

核心思路:论文的核心思路是通过模拟不同硬件配置,量化分析SRAM大小、工作频率以及外部内存带宽对LLM推理能耗和延迟的影响。通过识别计算密集型和内存密集型阶段的瓶颈,找到最佳的硬件配置,从而在能效和性能之间取得平衡。

技术框架:论文采用了一种综合的模拟方法,包括:1) 使用OpenRAM进行SRAM的能量建模;2) 使用LLMCompass进行延迟模拟;3) 使用ScaleSIM进行片上运算强度模拟。通过这些工具,可以模拟不同SRAM大小和工作频率下的LLM推理过程,并分析其能耗和延迟。

关键创新:论文的关键创新在于:1) 区分了预填充和解码阶段的不同特性,并针对性地分析了硬件配置的影响;2) 揭示了高工作频率在内存受限的解码阶段的收益受限于外部内存带宽;3) 提出了高工作频率和小缓存结合的优化策略,以实现最佳的能量延迟积。

关键设计:论文的关键设计包括:1) 模拟了不同大小的SRAM(例如,32KB、64KB等);2) 模拟了不同的工作频率(例如,1200MHz、1400MHz等);3) 使用了实际的LLM工作负载进行评估;4) 评估指标包括能量消耗、延迟和能量延迟积。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,对于模拟的工作负载,最佳的硬件配置是高工作频率(1200MHz-1400MHz)和小型本地缓冲区(32KB至64KB)。这种配置实现了最佳的能量延迟积,平衡了低延迟和高能效。同时,实验也验证了内存带宽是性能瓶颈,提高计算频率只能在工作负载变为内存受限之前产生性能提升。

🎯 应用场景

该研究成果可应用于数据中心LLM加速器的设计,帮助降低LLM推理的能耗,减少运营成本和环境影响。此外,该研究方法也可推广到其他AI模型的加速器设计中,为实现更高效的AI计算提供指导。

📄 摘要(原文)

Energy consumption dictates the cost and environmental impact of deploying Large Language Models. This paper investigates the impact of on-chip SRAM size and operating frequency on the energy efficiency and performance of LLM inference, focusing on the distinct behaviors of the compute-bound prefill and memory-bound decode phases. Our simulation methodology combines OpenRAM for energy modeling, LLMCompass for latency simulation, and ScaleSIM for systolic array operational intensity. Our findings show that total energy use is predominantly determined by SRAM size in both phases, with larger buffers significantly increasing static energy due to leakage, which is not offset by corresponding latency benefits. We quantitatively explore the memory-bandwidth bottleneck, demonstrating that while high operating frequencies reduce prefill latency, their positive impact on memory-bound decode latency is capped by the external memory bandwidth. Counter-intuitively, high compute frequency can reduce total energy by reducing execution time and consequently decreasing static energy consumption more than the resulting dynamic power increase. We identify an optimal hardware configuration for the simulated workload: high operating frequencies (1200MHz-1400MHz) and a small local buffer size of 32KB to 64KB. This combination achieves the best energy-delay product, balancing low latency with high energy efficiency. Furthermore, we demonstrate how memory bandwidth acts as a performance ceiling, and that increasing compute frequency only yields performance gains up to the point where the workload becomes memory-bound. This analysis provides concrete architectural insights for designing energy-efficient LLM accelerators, especially for datacenters aiming to minimize their energy overhead.