SISA: A Scale-In Systolic Array for GEMM Acceleration
作者: Luigi Altamura, Alessio Cicero, Mateo Vázquez Maceiras, Mohammad Ali Maleki, Pedro Trancoso
分类: cs.AR, cs.AI
发布日期: 2026-03-31
💡 一句话要点
SISA:一种用于GEMM加速的可伸缩片上系统阵列
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 片上系统阵列 GEMM加速 大型语言模型 硬件加速器 可伸缩架构
📋 核心要点
- 传统方形片上系统阵列在处理LLM中输入相关的倾斜矩阵时,资源利用率低。
- SISA通过将方形阵列划分为水平矩形板,实现独立调度,提高小型或倾斜矩阵的执行效率。
- 实验表明,SISA在LLM上实现了显著的加速和能效提升,最高加速8.52倍,EDP降低93%。
📝 摘要(中文)
当前主流的AI/ML工作负载,如大型语言模型(LLMs),依赖于通用矩阵乘法(GEMM)操作的高效执行。因此,大多数系统都配备了基于处理单元(PEs)的方形片上系统阵列(SAs)的专用矩阵硬件加速器。虽然这种组织方式对于传统的深度神经网络(DNNs)有效,但LLMs引入了输入相关的、高度倾斜的矩阵,导致SA资源利用不足。为了解决这个挑战,我们提出了SISA(可伸缩片上系统阵列),一种新颖的SA架构,它将传统的方形阵列划分为水平矩形板。通过最小的开销,SISA通过独立调度的板暴露并行性,以高效执行小型或倾斜的矩阵形状,同时保留全阵列操作以用于大型GEMM。与具有相同数量PE的先进单片SA相比,SISA在代表性的LLM上实现了高达8.52倍的加速和93%的能量延迟积(EDP)降低。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中通用矩阵乘法(GEMM)操作在传统方形片上系统阵列(SA)上执行效率低下的问题。由于LLM的矩阵具有输入依赖性和高度倾斜的特性,导致传统SA的资源利用率不足,影响整体性能。
核心思路:论文的核心思路是将传统的方形SA划分为多个水平矩形板(slabs)。每个板可以独立调度,从而能够更有效地处理小型或倾斜的矩阵形状。对于大型GEMM,SISA仍然可以像传统的SA一样以全阵列模式运行。这种设计旨在提高资源利用率,从而提升整体性能和能效。
技术框架:SISA的整体架构包括一个被划分为水平矩形板的片上系统阵列。每个板都包含多个处理单元(PEs),并且可以独立进行调度。SISA还包含一个控制单元,负责管理板的调度和数据流。当处理小型或倾斜矩阵时,控制单元会独立调度各个板,以最大化并行性和资源利用率。当处理大型矩阵时,控制单元会将整个阵列作为一个整体进行调度。
关键创新:SISA的关键创新在于其可伸缩的架构,允许根据矩阵形状动态调整阵列的利用方式。与传统的单片方形SA相比,SISA能够更好地适应LLM中不同形状的矩阵,从而提高资源利用率和性能。这种架构的另一个创新之处在于其低开销的设计,使得SISA能够在不显著增加硬件复杂性的情况下实现显著的性能提升。
关键设计:SISA的关键设计包括矩形板的尺寸和数量,以及板的调度策略。论文中可能探讨了不同板尺寸和数量对性能的影响,并提出了一种优化的调度策略,以最大化并行性和资源利用率。此外,SISA的控制单元的设计也是一个关键因素,它需要能够高效地管理板的调度和数据流。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与具有相同数量PE的先进单片SA相比,SISA在代表性的LLM上实现了高达8.52倍的加速和93%的能量延迟积(EDP)降低。这些结果突出了SISA在处理LLM工作负载时的显著优势,证明了其架构设计的有效性。
🎯 应用场景
SISA架构可应用于各种需要高效矩阵乘法加速的场景,尤其是在大型语言模型、推荐系统和图神经网络等领域。通过提高矩阵运算的效率,SISA能够降低计算延迟、提高系统吞吐量,并降低能耗,从而提升用户体验和降低运营成本。未来,SISA有望成为高性能AI计算平台的重要组成部分。
📄 摘要(原文)
The currently dominant AI/ML workloads, such as Large Language Models (LLMs), rely on the efficient execution of General Matrix-Matrix Multiplication (GEMM) operations. Thus, most systems are equipped with dedicated matrix hardware accelerators based on square Systolic Arrays (SAs) of Processing Elements (PEs). While this organization was effective for traditional Deep Neural Networks (DNNs), LLMs introduce input-dependent and highly skewed matrices, leading to underutilized SA resources. To address this challenge, we propose SISA (Scale-In Systolic Array), a novel SA architecture that partitions the traditional square array into horizontal rectangular slabs. With minimal overhead, SISA exposes parallelism through independently scheduled slabs for efficient execution of small or skewed matrix shapes, while retaining full-array operation for large GEMMs. SISA achieves up to 8.52x speedup and 93% energy-delay-product (EDP) reduction for representative LLMs compared to a state-of-the-art monolithic SA with the same number of PEs.