PIM-AI: A Novel Architecture for High-Efficiency LLM Inference

作者: Cristobal Ortega, Yann Falevoz, Renaud Ayrignac

分类: cs.AR, cs.AI, cs.DC, cs.ET

发布日期: 2024-11-26

备注: 14 pages, 5 figures

💡 一句话要点

PIM-AI：一种用于高效LLM推理的新型存内计算架构

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 存内计算 大型语言模型 LLM推理 DDR5 LPDDR5 低功耗 高性能计算

📋 核心要点

现有硬件架构在处理LLM推理时面临计算和内存瓶颈，限制了效率和可扩展性。
PIM-AI通过将计算单元集成到内存芯片中，减少数据传输，提高能效，从而加速LLM推理。
实验表明，PIM-AI在云和移动场景中均优于传统架构，显著降低了TCO和能耗，提升了性能。

📝 摘要（中文）

大型语言模型（LLM）凭借其先进的语言理解和生成能力，已成为各种应用中的关键技术。然而，它们的计算和内存需求对传统硬件架构提出了重大挑战。存内计算（PIM）将计算单元直接集成到存储芯片中，为LLM推理提供了诸多优势，包括减少数据传输瓶颈和提高能效。本文介绍了一种新型DDR5/LPDDR5 PIM架构PIM-AI，专为LLM推理而设计，无需修改内存控制器或DDR/LPDDR内存PHY。我们开发了一个模拟器来评估PIM-AI在各种场景下的性能，并证明了其相对于传统架构的显著优势。在云场景中，根据所使用的LLM模型，PIM-AI将每秒查询次数的3年总拥有成本（TCO）降低了高达6.94倍（与最先进的GPU相比）。在移动场景中，PIM-AI实现了比最先进的移动SoC低10到20倍的每token能量消耗，从而使每秒查询次数增加25％到45％，并减少6.9倍到13.4倍的每次查询能量消耗，从而延长电池寿命并实现每次充电更多的推理。这些结果突显了PIM-AI在彻底改变LLM部署方面的潜力，使其更高效、可扩展和可持续。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）推理过程中，传统硬件架构由于计算和内存分离导致的数据传输瓶颈和高能耗问题。现有方法，如使用GPU或传统CPU进行推理，在处理LLM的大量参数和计算需求时效率低下，限制了LLM的部署和应用。

核心思路：论文的核心思路是采用存内计算（PIM）架构，将计算单元集成到内存芯片内部，从而减少数据在处理器和内存之间的传输距离和次数。通过在内存附近进行计算，可以显著降低数据传输的延迟和能耗，提高LLM推理的效率。

技术框架：PIM-AI架构基于DDR5/LPDDR5内存标准，无需修改现有的内存控制器或物理层（PHY）。该架构包含多个计算单元，这些单元与内存阵列紧密集成，可以直接在内存中执行LLM推理所需的计算操作。论文开发了一个模拟器来评估PIM-AI的性能，该模拟器可以模拟不同LLM模型和场景下的推理过程。

关键创新：PIM-AI的关键创新在于其PIM架构的设计，该架构能够在标准DDR5/LPDDR5内存接口上实现高效的LLM推理，而无需对现有内存系统进行重大修改。这种设计使得PIM-AI可以更容易地集成到现有的系统中，降低了部署成本和复杂性。与传统的GPU或CPU相比，PIM-AI能够更有效地利用内存带宽和计算资源。

关键设计：论文中没有详细描述关键的参数设置、损失函数或网络结构等技术细节。重点在于PIM架构本身的设计和性能评估。未来的研究可以进一步优化PIM-AI的计算单元设计，并探索更适合PIM架构的LLM模型和算法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PIM-AI在云场景中可以将每秒查询次数的3年总拥有成本降低高达6.94倍（与最先进的GPU相比）。在移动场景中，PIM-AI实现了比最先进的移动SoC低10到20倍的每token能量消耗，从而使每秒查询次数增加25％到45％，并减少6.9倍到13.4倍的每次查询能量消耗。

🎯 应用场景

PIM-AI架构具有广泛的应用前景，包括云服务器、移动设备和边缘计算等。它可以显著降低LLM推理的成本和能耗，使得LLM能够更广泛地应用于各种场景，如智能助手、自然语言处理、机器翻译和内容生成等。PIM-AI还有助于推动LLM在资源受限设备上的部署，例如智能手机和物联网设备。

📄 摘要（原文）

Large Language Models (LLMs) have become essential in a variety of applications due to their advanced language understanding and generation capabilities. However, their computational and memory requirements pose significant challenges to traditional hardware architectures. Processing-in-Memory (PIM), which integrates computational units directly into memory chips, offers several advantages for LLM inference, including reduced data transfer bottlenecks and improved power efficiency. This paper introduces PIM-AI, a novel DDR5/LPDDR5 PIM architecture designed for LLM inference without modifying the memory controller or DDR/LPDDR memory PHY. We have developed a simulator to evaluate the performance of PIM-AI in various scenarios and demonstrate its significant advantages over conventional architectures. In cloud-based scenarios, PIM-AI reduces the 3-year TCO per queries-per-second by up to 6.94x compared to state-of-the-art GPUs, depending on the LLM model used. In mobile scenarios, PIM-AI achieves a 10- to 20-fold reduction in energy per token compared to state-of-the-art mobile SoCs, resulting in 25 to 45~\% more queries per second and 6.9x to 13.4x less energy per query, extending battery life and enabling more inferences per charge. These results highlight PIM-AI's potential to revolutionize LLM deployments, making them more efficient, scalable, and sustainable.

PIM-AI: A Novel Architecture for High-Efficiency LLM Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理