MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs

作者: Abhishek Moitra, Arkapravo Ghosh, Shrey Agarwal, Aporva Amarnath, Karthik Swaminathan, Priyadarshini Panda

分类: cs.AR, cs.AI, cs.LG

发布日期: 2025-02-14

备注: 12 pages, 13 figures. Accepted to The Eighth Annual Conference on Machine Learning and Systems (MLSys), 2025

💡 一句话要点

MEADOW：面向低功耗边缘LLM的内存高效数据流和数据打包

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 低功耗边缘计算 大型语言模型 数据流优化 权重打包 FPGA 内存效率 推理加速

📋 核心要点

现有LLM优化方法在低功耗边缘设备上，由于片外内存容量和带宽限制，导致注意力计算延迟高，权重获取成为瓶颈。
MEADOW框架通过token并行头串行（TPHS）数据流，显著减少片外内存访问，并采用权重打包技术降低权重获取延迟。
在低功耗FPGA平台上，MEADOW相比GEMM实现降低了解码和预填充延迟，并优于以往的LLM优化工作。

📝 摘要（中文）

大型语言模型（LLM）的计算和内存挑战催生了多种优化方法，以实现其高效部署。虽然以往针对LLM的量化和稀疏加速工作显著缓解了内存和计算瓶颈，但它们通常假设使用高功率平台，如具有大容量片外内存带宽的GPU和服务器级FPGA，并采用通用矩阵乘法（GEMM）执行解码器中的所有层。在这种基于GEMM的执行中，数据从片外内存获取、计算并存储回去。然而，在低功耗边缘设备中，片外内存容量受限，这种实现策略会因重复存储和获取大型中间token而显著增加注意力计算延迟。此外，从带宽受限的内存中获取权重矩阵进一步加剧了内存瓶颈问题。为此，我们提出了MEADOW，一个通过新颖的token并行头串行（TPHS）数据流显著减少LLM片外内存访问的框架。此外，MEADOW应用权重打包，对大型权重矩阵进行无损分解，提取其唯一元素，从而减少了巨大的权重获取延迟。在功耗低于10W的低功耗Xilinx ZCU102 FPGA平台上，MEADOW相比于基于GEMM的LLM实现，分别实现了1.5倍和2.5倍的更低解码和预填充延迟。此外，与以往的LLM优化工作相比，MEADOW实现了超过40%的端到端延迟改进。

🔬 方法详解

问题定义：论文旨在解决低功耗边缘设备上部署大型语言模型（LLM）时，由于有限的片外内存容量和带宽，导致的计算延迟高和能效低的问题。现有方法，如基于GEMM的实现，需要频繁地从片外内存读取和写入中间token和权重矩阵，造成严重的内存瓶颈。

核心思路：MEADOW的核心思路是通过优化数据流和权重存储方式，减少对片外内存的访问次数，从而降低延迟和功耗。具体来说，它采用了token并行头串行（TPHS）数据流和权重打包技术。

技术框架：MEADOW框架主要包含两个关键部分：1) Token并行头串行（TPHS）数据流：这种数据流方式允许在不同的注意力头之间并行处理token，从而减少了中间token的存储和读取次数。2) 权重打包：通过对权重矩阵进行分解，提取其唯一元素，并仅存储这些唯一元素，从而减少了权重矩阵的存储空间和读取延迟。整体流程是先对模型进行权重打包，然后在FPGA上使用TPHS数据流执行推理。

关键创新：MEADOW的关键创新在于其TPHS数据流和权重打包技术的结合。TPHS数据流通过并行化token处理减少了中间数据的内存访问，而权重打包则减少了权重数据的内存占用和访问。与传统的GEMM方法相比，MEADOW避免了频繁的片外内存访问，从而显著提高了效率。

关键设计：TPHS数据流的关键设计在于如何有效地在不同的注意力头之间分配token，以实现最大的并行度和最小的内存访问。权重打包的关键设计在于如何选择合适的分解方法，以最大程度地减少唯一元素的数量，同时保持模型的精度。论文中可能使用了特定的量化或剪枝技术来进一步优化权重矩阵。

🖼️ 关键图片

📊 实验亮点

MEADOW在Xilinx ZCU102 FPGA平台上进行了实验，结果表明，与基于GEMM的LLM实现相比，MEADOW实现了1.5倍的解码延迟降低和2.5倍的预填充延迟降低。此外，与以往的LLM优化工作相比，MEADOW实现了超过40%的端到端延迟改进。这些结果表明MEADOW在低功耗边缘设备上部署LLM方面具有显著优势。

🎯 应用场景

MEADOW框架适用于各种需要在低功耗边缘设备上部署LLM的场景，例如智能家居、可穿戴设备、自动驾驶等。通过降低LLM的计算和内存需求，MEADOW使得这些设备能够更高效地执行自然语言处理任务，例如语音识别、文本生成和情感分析，从而提升用户体验和设备智能化水平。

📄 摘要（原文）

The computational and memory challenges of large language models (LLMs) have sparked several optimization approaches towards their efficient implementation. While prior LLM-targeted quantization, and prior works on sparse acceleration have significantly mitigated the memory and computation bottleneck, they do so assuming high power platforms such as GPUs and server-class FPGAs with large off-chip memory bandwidths and employ a generalized matrix multiplication (GEMM) execution of all the layers in the decoder. In such a GEMM-based execution, data is fetched from an off-chip memory, computed and stored back. However, at reduced off-chip memory capacities, as is the case with low-power edge devices, this implementation strategy significantly increases the attention computation latency owing to the repeated storage and fetch of large intermediate tokens to and from the off-chip memory. Moreover, fetching the weight matrices from a bandwidth constrained memory further aggravates the memory bottleneck problem. To this end, we introduce MEADOW, a framework that significantly reduces the off-chip memory access for LLMs with a novel token-parallel head-sequential (TPHS) dataflow. Additionally, MEADOW applies weight packing that performs loss-less decomposition of large weight matrices to their unique elements thereby, reducing the enormous weight fetch latency. MEADOW demonstrates 1.5x and 2.5x lower decode and prefill latency, respectively, compared to a GEMM-based LLM implementation on the low power Xilinx ZCU102 FPGA platform that consumes less than 10W. Additionally, MEADOW achieves an end-to-end latency improvement of over 40%, compared to prior LLM optimization works.

MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理