AQPIM: Breaking the PIM Capacity Wall for LLMs with In-Memory Activation Quantization

📄 arXiv: 2604.18137v1 📥 PDF

作者: Kosuke Matsushima, Yasuyuki Okoshi, Masato Motomura, Daichi Fujiki

分类: cs.AR, cs.AI, cs.LG

发布日期: 2026-04-20

备注: Accepted to HPCA 2026

DOI: 10.1109/HPCA68181.2026.11408452


💡 一句话要点

提出AQPIM以解决大规模语言模型的内存激活量化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 处理内存中的计算 激活量化 大规模语言模型 产品量化 内存优化 计算效率 Transformer模型

📋 核心要点

  1. 现有PIM方法在处理长上下文的Transformer模型时,面临激活内存占用过大的挑战,导致超出内存容量。
  2. 本文提出AQPIM框架,基于产品量化(PQ)优化激活量化,直接在内存中进行量化以提高带宽和计算效率。
  3. 实验结果表明,AQPIM在GPU-CPU通信上减少了90%至98.5%的延迟,并实现了3.4倍的速度提升。

📝 摘要(中文)

处理内存中的计算(PIM)架构为数据密集型机器学习中的内存瓶颈提供了有前景的解决方案,但常常忽视了激活内存占用的挑战。传统的PIM方法在长上下文场景中,由于Transformer模型生成的大量KV缓存,常常超出PIM的有限内存容量。现有的PIM方法和量化技术通常不足以充分利用激活的独特特性。本文提出了一种专门针对PIM的激活量化方法AQPIM,通过在内存中直接进行量化,显著降低了内存占用和计算开销,并在性能上取得了显著提升。

🔬 方法详解

问题定义:本文旨在解决传统PIM架构在处理长上下文Transformer模型时,因激活内存占用过大而导致的内存瓶颈问题。现有方法在KV缓存管理上存在不足,无法有效利用内存资源。

核心思路:AQPIM框架通过在内存中直接进行激活量化,利用PIM的高内部带宽,优化了大规模语言模型的计算效率,减少了内存占用和计算开销。

技术框架:AQPIM的整体架构包括激活聚类、向量量化和直接计算模块。首先对激活进行聚类,然后应用产品量化技术进行压缩,最后在内存中直接进行计算。

关键创新:AQPIM的主要创新在于结合了PIM架构的特性与激活量化技术,提出了专门针对激活的量化方法,显著提高了计算效率和内存利用率。

关键设计:在设计中,AQPIM采用了聚类基础的向量量化方法,并引入了多种算法优化,以解决产品量化在准确性上的挑战。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,AQPIM在GPU-CPU通信延迟上减少了90%至98.5%,并在性能上实现了3.4倍的速度提升,相较于现有的最先进PIM方法,展现了显著的优势。

🎯 应用场景

AQPIM框架具有广泛的应用潜力,特别是在需要处理大规模数据和长上下文的自然语言处理任务中。其高效的内存管理和计算能力可以显著提升模型的响应速度和处理能力,推动智能助手、机器翻译等领域的发展。

📄 摘要(原文)

Processing-in-Memory (PIM) architectures offer a promising solution to the memory bottlenecks in data-intensive machine learning, yet often overlook the growing challenge of activation memory footprint. Conventional PIM approaches struggle with massive KV cache sizes generated in long-context scenarios by Transformer-based models, frequently exceeding PIM's limited memory capacity, while techniques like sparse attention can conflict with PIM's need for data locality. Existing PIM approaches and quantization methods are often insufficient or poorly suited for leveraging the unique characteristics of activations. This work identifies an opportunity for PIM-specialized activation quantization to enhance bandwidth and compute efficiency. We explore clustering-based vector quantization approaches, which align well with activation characteristics and PIM's internal bandwidth capabilities. Building on this, we introduce AQPIM, a novel PIM-aware activation quantization framework based on Product Quantization (PQ), optimizing it for modern Large Language Models (LLMs). By performing quantization directly within memory, AQPIM leverages PIM's high internal bandwidth and enables direct computation on compressed data, significantly reducing both memory footprint and computational overhead for attention computation. AQPIM addresses PQ's accuracy challenges by introducing several algorithmic optimizations. Evaluations demonstrate that AQPIM achieves significant performance improvements, drastically reducing of GPU-CPU communication that can account for 90$\sim$98.5\% of decoding latency, together with 3.4$\times$ speedup over a SOTA PIM approach.