PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs

作者: Jinendra Malekar, Peyton Chandarana, Md Hasibul Amin, Mohammed E. Elbtity, Ramtin Zand

分类: cs.AR, cs.AI

发布日期: 2025-03-31

💡 一句话要点

PIM-LLM：一种用于1比特LLM的高吞吐混合PIM架构

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 存内计算 大语言模型 硬件加速 低精度计算 脉动阵列

📋 核心要点

现有硬件加速器在处理1比特LLM时效率较低，尤其是在矩阵乘法运算上存在瓶颈。
PIM-LLM采用混合架构，利用模拟PIM加速低精度计算，数字脉动阵列加速高精度计算。
实验结果表明，PIM-LLM在吞吐量和能效方面显著优于传统加速器和先前的PIM方案。

📝 摘要（中文）

本文提出了PIM-LLM，一种用于加速1比特大语言模型（LLM）的混合架构。PIM-LLM利用模拟存内处理（PIM）架构和数字脉动阵列，分别加速1比特LLM中投影层的低精度矩阵乘法（MatMul）运算和注意力头的高精度MatMul运算。与传统的硬件加速器相比，我们的设计在每秒处理的token数量上实现了大约80倍的提升，并且在每焦耳处理的token数量上实现了70%的提升。此外，PIM-LLM优于以往基于PIM的LLM加速器，在GOPS和GOPS/W方面分别实现了至少2倍和5倍的提升，树立了新的基准。

🔬 方法详解

问题定义：论文旨在解决1比特大语言模型（LLM）在硬件加速上的效率瓶颈问题。现有硬件加速器，特别是CPU和GPU，在处理LLM中的矩阵乘法运算时，由于数据搬运和计算资源的限制，效率较低。尤其是在低精度计算方面，传统硬件的利用率不高，导致性能受限。

核心思路：PIM-LLM的核心思路是利用混合架构，针对LLM中不同类型的矩阵乘法运算采用不同的加速策略。对于投影层中的低精度（1比特）矩阵乘法，采用模拟存内处理（PIM）架构，将计算单元集成到存储器中，减少数据搬运，提高计算效率。对于注意力头中的高精度矩阵乘法，采用数字脉动阵列，充分利用并行计算能力。

技术框架：PIM-LLM的整体架构包含两个主要部分：模拟PIM阵列和数字脉动阵列。模拟PIM阵列用于加速投影层的低精度矩阵乘法，数字脉动阵列用于加速注意力头的高精度矩阵乘法。数据首先被加载到存储器中，然后根据计算类型被分配到相应的加速器上。计算完成后，结果被收集并传递到下一层。

关键创新：PIM-LLM的关键创新在于混合架构的设计，它能够根据不同计算的需求选择最合适的加速方式。与纯粹的PIM或纯粹的数字加速器相比，PIM-LLM能够更好地平衡计算效率和精度要求。此外，针对1比特LLM的特点，PIM-LLM对模拟PIM阵列进行了优化，提高了其在低精度计算方面的性能。

关键设计：PIM-LLM的关键设计包括模拟PIM阵列的电路设计、数字脉动阵列的结构设计以及数据在不同加速器之间的调度策略。模拟PIM阵列采用了基于忆阻器的交叉开关阵列，通过控制忆阻器的电阻值来实现矩阵乘法运算。数字脉动阵列采用了二维阵列结构，通过流水线的方式实现并行计算。数据调度策略则根据计算的类型和加速器的可用性，动态地将数据分配到不同的加速器上。

🖼️ 关键图片

📊 实验亮点

PIM-LLM在性能上显著优于传统硬件加速器和先前的PIM方案。实验结果表明，PIM-LLM在每秒处理的token数量上实现了大约80倍的提升，并且在每焦耳处理的token数量上实现了70%的提升。此外，PIM-LLM在GOPS和GOPS/W方面分别实现了至少2倍和5倍的提升，树立了新的基准。

🎯 应用场景

PIM-LLM具有广泛的应用前景，可用于加速各种1比特大语言模型，例如在边缘设备上部署轻量级LLM，或在数据中心中提高LLM的推理效率。该研究成果对于推动低功耗、高性能AI计算的发展具有重要意义，并有望促进LLM在更多实际场景中的应用。

📄 摘要（原文）

In this paper, we propose PIM-LLM, a hybrid architecture developed to accelerate 1-bit large language models (LLMs). PIM-LLM leverages analog processing-in-memory (PIM) architectures and digital systolic arrays to accelerate low-precision matrix multiplication (MatMul) operations in projection layers and high-precision MatMul operations in attention heads of 1-bit LLMs, respectively. Our design achieves up to roughly 80x improvement in tokens per second and a 70% increase in tokens per joule compared to conventional hardware accelerators. Additionally, PIM-LLM outperforms previous PIM-based LLM accelerators, setting a new benchmark with at least 2x and 5x improvement in GOPS and GOPS/W, respectively.

PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理