Enabling Energy-Efficient Deployment of Large Language Models on Memristor Crossbar: A Synergy of Large and Small
作者: Zhehui Wang, Tao Luo, Cheng Liu, Weichen Liu, Rick Siow Mong Goh, Weng-Fai Wong
分类: cs.AI
发布日期: 2024-10-21
期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence (2024 early access)
DOI: 10.1109/TPAMI.2024.3483654
💡 一句话要点
提出基于忆阻器交叉阵列的新架构,实现大语言模型的高能效部署。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 忆阻器 大语言模型 能效优化 交叉阵列 硬件加速
📋 核心要点
- 现有忆阻器芯片难以满足日益增长的大语言模型(LLM)的规模需求,且无法有效支持LLM中的非权重静态乘法和非线性运算。
- 论文提出一种新型忆阻器交叉阵列架构,旨在单个芯片或封装上部署LLM,从而避免片外通信带来的性能瓶颈。
- 实验结果表明,该架构在BERT_Large模型上精度损失可忽略不计,并在面积、能耗等方面优于传统忆阻器和TPU/GPU系统。
📝 摘要(中文)
大语言模型(LLMs)因其在各个领域中具有广阔的应用前景而备受关注。然而,LLMs规模的不断扩大导致训练和部署的计算需求显著增加。忆阻器交叉阵列已成为一种有前景的解决方案,在计算机视觉(CV)模型中展现出小尺寸和极高的能效。与传统存储技术相比,忆阻器具有更高的密度,使其非常适合有效管理LLMs相关的极端模型尺寸。然而,在忆阻器交叉阵列上部署LLMs面临三个主要挑战。首先,LLMs的规模迅速增长,已经超过了最先进的忆阻器芯片的容量。其次,LLMs通常包含多头注意力模块,其中涉及传统忆阻器交叉阵列无法支持的非权重静态乘法。第三,虽然忆阻器交叉阵列擅长执行线性运算,但它们无法执行LLM中复杂的非线性运算,如softmax和层归一化。为了应对这些挑战,我们提出了一种用于忆阻器交叉阵列的新型架构,该架构能够在单个芯片或封装上部署最先进的LLM,从而消除了片外通信相关的能量和时间低效率。我们在BERT_Large上的测试表明精度损失可忽略不计。与传统的忆阻器交叉阵列相比,我们的架构在面积开销方面提高了高达39倍,在能耗方面提高了18倍。与现代TPU/GPU系统相比,我们的架构在面积延迟积方面至少降低了68倍,并且能耗显著降低了69%。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)在忆阻器交叉阵列上部署时面临的挑战,包括模型尺寸过大、无法支持多头注意力机制中的非权重静态乘法以及无法执行复杂的非线性运算。现有方法受限于忆阻器芯片的容量、架构设计以及计算能力的不足,导致LLM部署的能效较低,且需要大量的片外通信。
核心思路:论文的核心思路是通过设计一种新型的忆阻器交叉阵列架构,使其能够高效地执行LLM中的各种计算操作,包括线性运算、非权重静态乘法和非线性运算。该架构旨在最大限度地利用忆阻器的高密度和低功耗特性,同时克服其在计算能力上的局限性,从而实现LLM的高能效部署。
技术框架:论文提出的架构包含以下主要模块: 1. 改进的忆阻器交叉阵列:用于执行矩阵乘法等线性运算。 2. 专用电路:用于支持多头注意力机制中的非权重静态乘法。 3. 非线性激活函数单元:用于执行softmax和层归一化等非线性运算。 4. 片上互连网络:用于在不同模块之间高效地传输数据。
关键创新:论文最重要的技术创新点在于提出了一种能够支持LLM中各种计算操作的忆阻器交叉阵列架构。该架构通过集成专用电路和非线性激活函数单元,克服了传统忆阻器交叉阵列在计算能力上的局限性。此外,该架构还采用了片上互连网络,以提高数据传输效率,从而进一步提升了LLM的部署性能。
关键设计:论文的关键设计包括: 1. 忆阻器交叉阵列的尺寸和布局:根据LLM的模型尺寸和计算需求进行优化。 2. 专用电路的设计:针对多头注意力机制中的非权重静态乘法进行优化。 3. 非线性激活函数单元的设计:采用低功耗的电路实现softmax和层归一化等非线性运算。 4. 片上互连网络的设计:采用高带宽、低延迟的互连结构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该架构在BERT_Large模型上实现了接近无损的精度,与传统忆阻器交叉阵列相比,面积开销降低了39倍,能耗降低了18倍。与现代TPU/GPU系统相比,面积延迟积降低了至少68倍,能耗降低了69%。这些结果表明,该架构在LLM部署方面具有显著的优势。
🎯 应用场景
该研究成果可应用于各种需要高性能和低功耗的大语言模型部署场景,例如边缘计算设备、移动设备和数据中心。通过利用忆阻器交叉阵列的高密度和低功耗特性,可以实现LLM在资源受限环境下的高效运行,从而推动人工智能技术在更广泛领域的应用。
📄 摘要(原文)
Large language models (LLMs) have garnered substantial attention due to their promising applications in diverse domains. Nevertheless, the increasing size of LLMs comes with a significant surge in the computational requirements for training and deployment. Memristor crossbars have emerged as a promising solution, which demonstrated a small footprint and remarkably high energy efficiency in computer vision (CV) models. Memristors possess higher density compared to conventional memory technologies, making them highly suitable for effectively managing the extreme model size associated with LLMs. However, deploying LLMs on memristor crossbars faces three major challenges. Firstly, the size of LLMs increases rapidly, already surpassing the capabilities of state-of-the-art memristor chips. Secondly, LLMs often incorporate multi-head attention blocks, which involve non-weight stationary multiplications that traditional memristor crossbars cannot support. Third, while memristor crossbars excel at performing linear operations, they are not capable of executing complex nonlinear operations in LLM such as softmax and layer normalization. To address these challenges, we present a novel architecture for the memristor crossbar that enables the deployment of state-of-the-art LLM on a single chip or package, eliminating the energy and time inefficiencies associated with off-chip communication. Our testing on BERT_Large showed negligible accuracy loss. Compared to traditional memristor crossbars, our architecture achieves enhancements of up to 39X in area overhead and 18X in energy consumption. Compared to modern TPU/GPU systems, our architecture demonstrates at least a 68X reduction in the area-delay product and a significant 69% energy consumption reduction.