PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs

📄 arXiv: 2504.01994v1 📥 PDF

作者: Jinendra Malekar, Peyton Chandarana, Md Hasibul Amin, Mohammed E. Elbtity, Ramtin Zand

分类: cs.AR, cs.AI

发布日期: 2025-03-31


💡 一句话要点

PIM-LLM:一种用于1比特LLM的高吞吐混合PIM架构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 存内计算 大语言模型 硬件加速 低精度计算 脉动阵列

📋 核心要点

  1. 现有硬件加速器在处理1比特LLM时效率较低,尤其是在矩阵乘法运算上存在瓶颈。
  2. PIM-LLM采用混合架构,利用模拟PIM加速低精度计算,数字脉动阵列加速高精度计算。
  3. 实验结果表明,PIM-LLM在吞吐量和能效方面显著优于传统加速器和先前的PIM方案。

📝 摘要(中文)

本文提出了PIM-LLM,一种用于加速1比特大语言模型(LLM)的混合架构。PIM-LLM利用模拟存内处理(PIM)架构和数字脉动阵列,分别加速1比特LLM中投影层的低精度矩阵乘法(MatMul)运算和注意力头的高精度MatMul运算。与传统的硬件加速器相比,我们的设计在每秒处理的token数量上实现了大约80倍的提升,并且在每焦耳处理的token数量上实现了70%的提升。此外,PIM-LLM优于以往基于PIM的LLM加速器,在GOPS和GOPS/W方面分别实现了至少2倍和5倍的提升,树立了新的基准。

🔬 方法详解

问题定义:论文旨在解决1比特大语言模型(LLM)在硬件加速上的效率瓶颈问题。现有硬件加速器,特别是CPU和GPU,在处理LLM中的矩阵乘法运算时,由于数据搬运和计算资源的限制,效率较低。尤其是在低精度计算方面,传统硬件的利用率不高,导致性能受限。

核心思路:PIM-LLM的核心思路是利用混合架构,针对LLM中不同类型的矩阵乘法运算采用不同的加速策略。对于投影层中的低精度(1比特)矩阵乘法,采用模拟存内处理(PIM)架构,将计算单元集成到存储器中,减少数据搬运,提高计算效率。对于注意力头中的高精度矩阵乘法,采用数字脉动阵列,充分利用并行计算能力。

技术框架:PIM-LLM的整体架构包含两个主要部分:模拟PIM阵列和数字脉动阵列。模拟PIM阵列用于加速投影层的低精度矩阵乘法,数字脉动阵列用于加速注意力头的高精度矩阵乘法。数据首先被加载到存储器中,然后根据计算类型被分配到相应的加速器上。计算完成后,结果被收集并传递到下一层。

关键创新:PIM-LLM的关键创新在于混合架构的设计,它能够根据不同计算的需求选择最合适的加速方式。与纯粹的PIM或纯粹的数字加速器相比,PIM-LLM能够更好地平衡计算效率和精度要求。此外,针对1比特LLM的特点,PIM-LLM对模拟PIM阵列进行了优化,提高了其在低精度计算方面的性能。

关键设计:PIM-LLM的关键设计包括模拟PIM阵列的电路设计、数字脉动阵列的结构设计以及数据在不同加速器之间的调度策略。模拟PIM阵列采用了基于忆阻器的交叉开关阵列,通过控制忆阻器的电阻值来实现矩阵乘法运算。数字脉动阵列采用了二维阵列结构,通过流水线的方式实现并行计算。数据调度策略则根据计算的类型和加速器的可用性,动态地将数据分配到不同的加速器上。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PIM-LLM在性能上显著优于传统硬件加速器和先前的PIM方案。实验结果表明,PIM-LLM在每秒处理的token数量上实现了大约80倍的提升,并且在每焦耳处理的token数量上实现了70%的提升。此外,PIM-LLM在GOPS和GOPS/W方面分别实现了至少2倍和5倍的提升,树立了新的基准。

🎯 应用场景

PIM-LLM具有广泛的应用前景,可用于加速各种1比特大语言模型,例如在边缘设备上部署轻量级LLM,或在数据中心中提高LLM的推理效率。该研究成果对于推动低功耗、高性能AI计算的发展具有重要意义,并有望促进LLM在更多实际场景中的应用。

📄 摘要(原文)

In this paper, we propose PIM-LLM, a hybrid architecture developed to accelerate 1-bit large language models (LLMs). PIM-LLM leverages analog processing-in-memory (PIM) architectures and digital systolic arrays to accelerate low-precision matrix multiplication (MatMul) operations in projection layers and high-precision MatMul operations in attention heads of 1-bit LLMs, respectively. Our design achieves up to roughly 80x improvement in tokens per second and a 70% increase in tokens per joule compared to conventional hardware accelerators. Additionally, PIM-LLM outperforms previous PIM-based LLM accelerators, setting a new benchmark with at least 2x and 5x improvement in GOPS and GOPS/W, respectively.