MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs
作者: Abhishek Moitra, Arkapravo Ghosh, Shrey Agarwal, Aporva Amarnath, Karthik Swaminathan, Priyadarshini Panda
分类: cs.AR, cs.AI, cs.LG
发布日期: 2025-02-14
备注: 12 pages, 13 figures. Accepted to The Eighth Annual Conference on Machine Learning and Systems (MLSys), 2025
💡 一句话要点
MEADOW:面向低功耗边缘LLM的内存高效数据流和数据打包
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低功耗边缘计算 大型语言模型 数据流优化 权重打包 FPGA 内存效率 推理加速
📋 核心要点
- 现有LLM优化方法在低功耗边缘设备上,由于片外内存容量和带宽限制,导致注意力计算延迟高,权重获取成为瓶颈。
- MEADOW框架通过token并行头串行(TPHS)数据流,显著减少片外内存访问,并采用权重打包技术降低权重获取延迟。
- 在低功耗FPGA平台上,MEADOW相比GEMM实现降低了解码和预填充延迟,并优于以往的LLM优化工作。
📝 摘要(中文)
大型语言模型(LLM)的计算和内存挑战催生了多种优化方法,以实现其高效部署。虽然以往针对LLM的量化和稀疏加速工作显著缓解了内存和计算瓶颈,但它们通常假设使用高功率平台,如具有大容量片外内存带宽的GPU和服务器级FPGA,并采用通用矩阵乘法(GEMM)执行解码器中的所有层。在这种基于GEMM的执行中,数据从片外内存获取、计算并存储回去。然而,在低功耗边缘设备中,片外内存容量受限,这种实现策略会因重复存储和获取大型中间token而显著增加注意力计算延迟。此外,从带宽受限的内存中获取权重矩阵进一步加剧了内存瓶颈问题。为此,我们提出了MEADOW,一个通过新颖的token并行头串行(TPHS)数据流显著减少LLM片外内存访问的框架。此外,MEADOW应用权重打包,对大型权重矩阵进行无损分解,提取其唯一元素,从而减少了巨大的权重获取延迟。在功耗低于10W的低功耗Xilinx ZCU102 FPGA平台上,MEADOW相比于基于GEMM的LLM实现,分别实现了1.5倍和2.5倍的更低解码和预填充延迟。此外,与以往的LLM优化工作相比,MEADOW实现了超过40%的端到端延迟改进。
🔬 方法详解
问题定义:论文旨在解决低功耗边缘设备上部署大型语言模型(LLM)时,由于有限的片外内存容量和带宽,导致的计算延迟高和能效低的问题。现有方法,如基于GEMM的实现,需要频繁地从片外内存读取和写入中间token和权重矩阵,造成严重的内存瓶颈。
核心思路:MEADOW的核心思路是通过优化数据流和权重存储方式,减少对片外内存的访问次数,从而降低延迟和功耗。具体来说,它采用了token并行头串行(TPHS)数据流和权重打包技术。
技术框架:MEADOW框架主要包含两个关键部分:1) Token并行头串行(TPHS)数据流:这种数据流方式允许在不同的注意力头之间并行处理token,从而减少了中间token的存储和读取次数。2) 权重打包:通过对权重矩阵进行分解,提取其唯一元素,并仅存储这些唯一元素,从而减少了权重矩阵的存储空间和读取延迟。整体流程是先对模型进行权重打包,然后在FPGA上使用TPHS数据流执行推理。
关键创新:MEADOW的关键创新在于其TPHS数据流和权重打包技术的结合。TPHS数据流通过并行化token处理减少了中间数据的内存访问,而权重打包则减少了权重数据的内存占用和访问。与传统的GEMM方法相比,MEADOW避免了频繁的片外内存访问,从而显著提高了效率。
关键设计:TPHS数据流的关键设计在于如何有效地在不同的注意力头之间分配token,以实现最大的并行度和最小的内存访问。权重打包的关键设计在于如何选择合适的分解方法,以最大程度地减少唯一元素的数量,同时保持模型的精度。论文中可能使用了特定的量化或剪枝技术来进一步优化权重矩阵。
🖼️ 关键图片
📊 实验亮点
MEADOW在Xilinx ZCU102 FPGA平台上进行了实验,结果表明,与基于GEMM的LLM实现相比,MEADOW实现了1.5倍的解码延迟降低和2.5倍的预填充延迟降低。此外,与以往的LLM优化工作相比,MEADOW实现了超过40%的端到端延迟改进。这些结果表明MEADOW在低功耗边缘设备上部署LLM方面具有显著优势。
🎯 应用场景
MEADOW框架适用于各种需要在低功耗边缘设备上部署LLM的场景,例如智能家居、可穿戴设备、自动驾驶等。通过降低LLM的计算和内存需求,MEADOW使得这些设备能够更高效地执行自然语言处理任务,例如语音识别、文本生成和情感分析,从而提升用户体验和设备智能化水平。
📄 摘要(原文)
The computational and memory challenges of large language models (LLMs) have sparked several optimization approaches towards their efficient implementation. While prior LLM-targeted quantization, and prior works on sparse acceleration have significantly mitigated the memory and computation bottleneck, they do so assuming high power platforms such as GPUs and server-class FPGAs with large off-chip memory bandwidths and employ a generalized matrix multiplication (GEMM) execution of all the layers in the decoder. In such a GEMM-based execution, data is fetched from an off-chip memory, computed and stored back. However, at reduced off-chip memory capacities, as is the case with low-power edge devices, this implementation strategy significantly increases the attention computation latency owing to the repeated storage and fetch of large intermediate tokens to and from the off-chip memory. Moreover, fetching the weight matrices from a bandwidth constrained memory further aggravates the memory bottleneck problem. To this end, we introduce MEADOW, a framework that significantly reduces the off-chip memory access for LLMs with a novel token-parallel head-sequential (TPHS) dataflow. Additionally, MEADOW applies weight packing that performs loss-less decomposition of large weight matrices to their unique elements thereby, reducing the enormous weight fetch latency. MEADOW demonstrates 1.5x and 2.5x lower decode and prefill latency, respectively, compared to a GEMM-based LLM implementation on the low power Xilinx ZCU102 FPGA platform that consumes less than 10W. Additionally, MEADOW achieves an end-to-end latency improvement of over 40%, compared to prior LLM optimization works.