Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge

📄 arXiv: 2605.00536v1 📥 PDF

作者: M. Grailoo, J. Núñez-Yáñez

分类: cs.DC, cs.AR, cs.LG, cs.PF, cs.RO

发布日期: 2026-05-01

备注: 11 pages, 3 figures, 8 tables, 4 algorithms


💡 一句话要点

Tempus:面向Versal AI Edge的资源不变时序GEMM流式框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GEMM加速 边缘计算 大语言模型 Versal AI Edge 时序计算 资源不变 数据流 AIE-ML

📋 核心要点

  1. 现有GEMM加速框架在边缘设备上采用空间扩展,导致资源消耗过高、带宽饱和以及物理实现失败。
  2. Tempus采用资源不变的时序GEMM框架,通过固定计算块、迭代图执行和数据平铺实现可扩展性。
  3. Tempus在GEMM工作负载上实现了607 GOPS,功耗为10.677W,PAU指标比现有方法高211.2倍。

📝 摘要(中文)

大语言模型(LLM)的扩展定律表明,模型质量随计算规模的增加而提高,但边缘部署对计算、内存和功耗提出了严格的约束。由于通用矩阵乘法(GEMM)占推理时间的90%,因此高效的GEMM加速对于边缘AI至关重要。AMD Versal自适应SoC中的自适应智能引擎非常适合此任务,但现有的最先进(SOTA)框架通过空间扩展来最大化性能,将工作负载分配到数百个内核上——这种方法由于物理实现失败、带宽饱和和过度资源消耗而在资源受限的边缘SoC上失效。我们提出了Tempus,一种用于AMD Versal AI Edge SoC的资源不变时序GEMM框架。Tempus没有随着矩阵大小的增加而扩展硬件资源,而是采用了一个由16个AIE-ML内核组成的固定计算块,通过可编程逻辑中的迭代图执行和算法数据平铺和复制来实现可扩展性。高速级联流确保了低延迟的部分和归约,启动间隔(II)为1,而无死锁的DATAFLOW协议最大程度地提高了传输-计算重叠和PLIO重用。在GEMM工作负载上进行评估,Tempus在10.677 W的总片上功耗下实现了607 GOPS。通过使用平台感知效用(PAU)指标来表征系统级效率,我们证明Tempus比领先的空间SOTA(ARIES)实现了高211.2倍的突出系数。此外,该框架保持0.00%的URAM/DSP利用率,从而实现了22.0倍的内核节约、7.1倍的功率节约以及6.3倍的I/O需求降低,为边缘LLM推理建立了可持续、可扩展的基础。

🔬 方法详解

问题定义:论文旨在解决在资源受限的边缘设备上高效执行通用矩阵乘法(GEMM)的问题。现有方法主要采用空间扩展,即通过增加硬件资源(例如,更多的计算核心)来提高GEMM的计算性能。然而,这种方法在边缘设备上会遇到资源限制,导致物理实现失败、带宽饱和以及过度的资源消耗,无法满足边缘设备对低功耗和低延迟的需求。

核心思路:Tempus的核心思路是采用资源不变的时序GEMM框架。与空间扩展不同,Tempus使用固定数量的计算资源(16个AIE-ML内核),并通过时序上的迭代执行来实现GEMM的加速。这种设计避免了因增加硬件资源而带来的问题,更适合资源受限的边缘设备。通过算法层面的数据平铺和复制,以及高效的数据流管理,Tempus能够在有限的硬件资源下实现高性能。

技术框架:Tempus框架主要包括以下几个关键模块:1) 固定大小的AIE-ML内核计算块,负责执行GEMM的核心计算;2) 可编程逻辑(PL)中的数据平铺和复制模块,用于将大型矩阵分解为适合AIE-ML内核处理的小块,并进行数据复制以提高数据利用率;3) 高速级联流,用于低延迟的部分和归约,实现启动间隔(II)为1;4) 无死锁的DATAFLOW协议,用于最大化传输-计算重叠和PLIO复用。整体流程是,PL将数据准备好并分发给AIE-ML内核,AIE-ML内核进行计算,然后通过级联流进行结果的归约,最终得到GEMM的计算结果。

关键创新:Tempus的关键创新在于其资源不变的时序GEMM加速方法。与传统的空间扩展方法不同,Tempus通过固定计算资源和时序迭代执行来实现GEMM加速,从而避免了资源受限边缘设备上的问题。此外,Tempus还采用了高效的数据平铺和复制策略,以及无死锁的DATAFLOW协议,进一步提高了计算效率和资源利用率。

关键设计:Tempus的关键设计包括:1) AIE-ML内核的数量固定为16个,这是一个根据目标应用和硬件平台特点进行优化的参数;2) 数据平铺的大小和复制策略需要根据矩阵的大小和AIE-ML内核的计算能力进行调整,以最大化计算效率;3) DATAFLOW协议的设计需要保证数据传输和计算的同步,避免死锁的发生;4) 级联流的设计需要保证低延迟的部分和归约,以减少计算延迟。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Tempus在GEMM工作负载上实现了607 GOPS的计算性能,总片上功耗为10.677W。通过平台感知效用(PAU)指标评估,Tempus比领先的空间SOTA(ARIES)实现了高211.2倍的突出系数。此外,Tempus实现了0.00%的URAM/DSP利用率,从而实现了22.0倍的内核节约、7.1倍的功率节约以及6.3倍的I/O需求降低。

🎯 应用场景

Tempus框架适用于资源受限的边缘设备上的大语言模型(LLM)推理加速。由于GEMM是LLM推理中的主要计算瓶颈,Tempus的高效GEMM加速能力可以显著提高边缘设备上LLM的推理速度和能效。该框架还可应用于其他需要高性能矩阵乘法的边缘AI应用,例如图像识别、目标检测和自然语言处理等。未来,Tempus有望推动更多复杂的AI模型在边缘设备上的部署和应用。

📄 摘要(原文)

Scaling laws for Large Language Models (LLMs) establish that model quality improves with computational scale, yet edge deployment imposes strict constraints on compute, memory, and power. Since General Matrix Multiplication (GEMM) accounts for up to 90\% of inference time, efficient GEMM acceleration is critical for edge AI. The Adaptive Intelligent Engines available in the AMD Versal adaptive SoCs are well suited for this task, but existing state-of-the-art (SOTA) frameworks maximize performance through spatial scaling, distributing workloads across hundreds of cores -- an approach that fails on resource-limited edge SoCs due to physical implementation failures, bandwidth saturation, and excessive resource consumption. We propose Tempus, a Resource-Invariant Temporal GEMM framework for the AMD Versal AI Edge SoC. Rather than expanding hardware resources with matrix size, Tempus employs a fixed compute block of 16 AIE-ML cores, achieving scalability through iterative graph execution and algorithmic data tiling and replication in the Programmable Logic. High-speed cascade streaming ensures low-latency partial sum reduction at Initiation Interval (II) of 1, while a deadlock-free DATAFLOW protocol maximizes transfer-compute overlap and PLIO reuse. Evaluated on GEMM workloads, Tempus achieves 607 GOPS at 10.677 W total on-chip power. By characterizing system-level efficiency through the Platform-Aware Utility (PAU) metric, we prove that Tempus achieves a 211.2x higher prominence factor than the leading spatial SOTA (ARIES). Furthermore, the framework maintains a 0.00\% utilization of URAM/DSP, yielding 22.0x core frugality, 7.1x power frugality, and a 6.3x reduction in I/O demand, establishing a sustainable, scalable foundation for edge LLM inference.