Hybrid Systolic Array Accelerator with Optimized Dataflow for Edge Large Language Model Inference
作者: Chun-Ting Chen, HanGyeol Mun, Jian Meng, Mohamed S. Abdelfattah, Jae-sun Seo
分类: cs.AR, cs.AI
发布日期: 2025-07-11
备注: Accepted as a conference paper at the 2025 IEEE/ACM International Symposium on Low Power Electronics and Design (ISLPED)
💡 一句话要点
提出混合 systolic 阵列加速器,优化边缘大语言模型推理的数据流
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 大语言模型 硬件加速器 systolic 阵列 数据流优化
📋 核心要点
- 边缘LLM推理面临面积效率和外部存储访问的挑战,尤其是在内存受限的解码阶段。
- 论文提出混合 systolic 阵列(HSA)架构,并优化数据流,以在预填充和解码阶段实现高效率。
- 实验结果表明,该方案在面积效率和能效上优于现有方法,并在长序列推理中表现出色。
📝 摘要(中文)
本文提出了一种用于边缘大语言模型(LLM)推理的加速器,旨在提供安全、低延迟和高性价比的推理解决方案。针对边缘加速器对面积效率和外部存储访问(EMA)的严格要求,尤其是在内存受限的解码阶段,同时兼顾计算密集型预填充阶段的能量效率,论文提出了一种混合 systolic 阵列(HSA)架构,以优化两个阶段的推理效率。为了进一步减少EMA,采用了MXINT4权重量化,并针对HSA设计了优化的数据流,确保可忽略的解量化开销,并在边缘DRAM带宽约束下实现100%的硬件利用率和最小的精度损失。此外,还集成了优化的均方根归一化(RMSNorm)和旋转位置嵌入(RoPE)单元,降低了它们的延迟、面积和内存访问开销,从而在加速器上实现端到端推理。实验结果表明,该解决方案在长输入/长输出场景下运行1.3B LLM时,实现了247/117 (token/s/mm2)的性能,相比现有方法提高了>2.45x/13.5x,同时在token生成方面保持了卓越的能量效率。
🔬 方法详解
问题定义:现有边缘设备上部署大语言模型面临的主要问题是计算资源和内存带宽的限制。解码阶段对内存访问需求高,成为性能瓶颈。现有的加速器设计往往难以在面积效率、能量效率和外部存储访问之间取得平衡,尤其是在长序列推理场景下。
核心思路:论文的核心思路是设计一种混合 systolic 阵列(HSA)架构,并结合优化的数据流,以充分利用硬件资源,减少外部存储访问,从而提高边缘LLM推理的效率。通过针对预填充和解码阶段的不同特性进行优化,实现整体性能的提升。
技术框架:该加速器的整体架构包含以下主要模块:混合 systolic 阵列(HSA)、优化的RMSNorm单元、优化的RoPE单元。HSA负责主要的矩阵乘法运算,RMSNorm和RoPE单元负责非线性操作。数据流的设计旨在最大化HSA的利用率,减少数据在片上和片外存储之间的传输。整个流程包括权重加载、预填充阶段的计算、解码阶段的计算以及结果输出。
关键创新:该论文的关键创新点在于混合 systolic 阵列架构和针对该架构优化的数据流。HSA能够根据不同的计算阶段动态调整计算模式,从而提高硬件利用率。优化的数据流能够减少外部存储访问,降低解量化开销,并在边缘DRAM带宽约束下实现高性能。此外,优化的RMSNorm和RoPE单元也降低了非线性操作的延迟和面积开销。
关键设计:论文采用了MXINT4权重量化,以减少模型大小和内存访问。针对HSA设计了特定的数据流,确保数据能够高效地在阵列中流动,并最大程度地减少数据传输。RMSNorm和RoPE单元的设计考虑了硬件实现的效率,通过优化计算流程和存储访问模式,降低了延迟和面积开销。具体的参数设置和网络结构细节未在摘要中详细说明。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该加速器在运行1.3B LLM时,实现了247/117 (token/s/mm2)的性能,相比现有方法提高了>2.45x/13.5x。同时,该加速器在token生成方面保持了卓越的能量效率。这些结果表明,该加速器在面积效率和能效方面都具有显著优势。
🎯 应用场景
该研究成果可应用于各种边缘计算设备,例如智能手机、物联网设备和自动驾驶汽车等,为这些设备提供低延迟、高能效的大语言模型推理能力。这使得在本地设备上进行自然语言处理、语音识别、机器翻译等任务成为可能,从而提高用户隐私和响应速度,并降低对云端服务器的依赖。
📄 摘要(原文)
Edge inference for large language models (LLM) offers secure, low-latency, and cost-effective inference solutions. We emphasize that an edge accelerator should achieve high area efficiency and minimize external memory access (EMA) during the memory-bound decode stage, while maintaining high energy efficiency during the compute intensive prefill stage. This paper proposes an edge LLM inference accelerator featuring a hybrid systolic array (HSA) architecture that optimizes inference efficiency in both stages. To further reduce EMA, we adopt MXINT4 weight quantization and propose an optimized dataflow tailored for HSA, ensuring negligible dequantization overhead and achieving 100% hardware utilization with minimal accuracy loss under edge DRAM bandwidth constraints. For non-linear operations, we incorporate optimized root mean square normalization (RMSNorm) and rotary position embedding (RoPE) units, reducing their latency, area, and memory access overhead while enabling end-to-end inference on our accelerator. Our solution achieves 247/117 (token/s/mm2) while running a 1.3B LLM on long-input/long-output scenarios, providing >2.45x/13.5x improvement over existing approaches, while maintaining superior energy efficiency in token generation.