InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models
作者: Sayed Mohammadreza Tayaranian Hosseini, Amir Ardakani, Warren J. Gross
分类: cs.LG, cs.CL
发布日期: 2026-02-26
备注: 16 pages, 4 figures, 4 tables, 2 algorithms
💡 一句话要点
InnerQ:一种硬件感知的、免调优的KV缓存量化方法,加速大语言模型推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: KV缓存量化 大语言模型 硬件感知 推理加速 低精度计算
📋 核心要点
- 大语言模型解码时,KV缓存占用大量内存,成为长序列生成的瓶颈,现有量化方法有待提升。
- InnerQ沿KV缓存矩阵内维度进行分组量化,对齐反量化与向量-矩阵乘法,并重用缩放因子,减少内存访问。
- InnerQ采用混合量化、高精度窗口和逐通道归一化等技术,在Llama模型上实现了优于现有方法的性能。
📝 摘要(中文)
本文提出InnerQ,一种硬件感知的KV缓存量化方案,旨在降低解码延迟且不牺牲准确性。InnerQ采用组量化,并沿KV缓存矩阵的内维度进行分组。与以往沿外维度分组的方法不同,InnerQ将反量化与向量-矩阵乘法对齐,并允许在GPU计算单元之间重用缩放因子,从而减少内存访问并加速反量化,相比之前的工作提速高达22%,相比半精度向量-矩阵乘法提速高达88%。为了在高压缩率下保持保真度,InnerQ结合了:(i)混合量化,基于局部统计信息为每个组选择对称或非对称量化;(ii)高精度窗口,用于最近的token和注意力sink token,以减轻异常值泄漏;(iii)对Key缓存进行逐通道归一化,在预填充期间计算一次并折叠到Query中,以避免运行时开销。在Llama模型上的评估实验表明,InnerQ在few-shot GSM8K上的性能与非量化KV缓存相当,并优于先前的KV缓存量化方法。
🔬 方法详解
问题定义:大语言模型(LLM)在解码过程中,Key-Value (KV) 缓存的大小随着序列长度的增加而线性增长,成为内存占用和计算效率的瓶颈。现有的KV缓存量化方法虽然可以压缩缓存大小,但往往忽略了硬件特性,导致解码延迟较高。这些方法通常对外维度进行分组,反量化过程效率较低,无法充分利用GPU的并行计算能力。
核心思路:InnerQ的核心思路是设计一种硬件感知的KV缓存量化方案,通过沿KV缓存矩阵的内维度进行分组量化,将反量化操作与向量-矩阵乘法对齐,从而减少内存访问和加速反量化过程。此外,InnerQ还通过混合量化、高精度窗口和逐通道归一化等技术,在高压缩率下保持模型的准确性。
技术框架:InnerQ的整体框架包括以下几个主要阶段:1) 预填充阶段:计算Key缓存的逐通道归一化参数,并将其折叠到Query中。2) 量化阶段:对KV缓存进行分组量化,并根据局部统计信息选择对称或非对称量化。3) 解码阶段:从KV缓存中读取量化后的Key和Value,进行反量化,并执行向量-矩阵乘法。InnerQ的关键在于将反量化与向量-矩阵乘法对齐,从而减少内存访问和加速计算。
关键创新:InnerQ的关键创新在于:1) 内维度分组量化:与以往沿外维度分组的方法不同,InnerQ沿KV缓存矩阵的内维度进行分组量化,从而将反量化与向量-矩阵乘法对齐。2) 硬件感知设计:InnerQ充分考虑了GPU的硬件特性,通过重用缩放因子,减少了内存访问和计算开销。3) 混合量化:InnerQ根据局部统计信息为每个组选择对称或非对称量化,从而提高了量化精度。4) 高精度窗口:InnerQ对最近的token和注意力sink token使用高精度窗口,以减轻异常值泄漏。
关键设计:InnerQ的关键设计包括:1) 分组大小:InnerQ选择合适的分组大小,以平衡量化精度和计算效率。2) 量化位数:InnerQ使用较低的量化位数(如4位或8位)来压缩KV缓存的大小。3) 混合量化策略:InnerQ根据每个组的统计信息(如均值和方差)选择对称或非对称量化。4) 高精度窗口大小:InnerQ根据模型的性能和内存占用选择合适的高精度窗口大小。
📊 实验亮点
实验结果表明,InnerQ在Llama模型上实现了显著的性能提升。与之前的KV缓存量化方法相比,InnerQ提速高达22%,与半精度向量-矩阵乘法相比提速高达88%。此外,InnerQ在few-shot GSM8K上的性能与非量化KV缓存相当,并优于先前的KV缓存量化方法。这些结果表明,InnerQ是一种有效的KV缓存量化方案,可以在不牺牲准确性的前提下显著降低解码延迟。
🎯 应用场景
InnerQ可应用于各种需要高效长序列生成的大语言模型场景,例如机器翻译、文本摘要、对话系统等。通过降低KV缓存的内存占用和解码延迟,InnerQ可以使这些模型在资源受限的设备上运行,并提高用户体验。未来,InnerQ可以进一步扩展到其他类型的模型和硬件平台,并与其他优化技术相结合,以实现更高的性能。
📄 摘要(原文)
Reducing the hardware footprint of large language models (LLMs) during decoding is critical for efficient long-sequence generation. A key bottleneck is the key-value (KV) cache, whose size scales with sequence length and easily dominates the memory footprint of the model. Previous work proposed quantization methods that are focused on compressing the KV cache while maintaining its information. We introduce InnerQ, a hardware-aware KV-cache quantization scheme that lowers decode latency without sacrificing accuracy. InnerQ applies group-wise quantization while grouping the cache matrices over their inner dimension. Unlike previous work that group over the outer dimension, InnerQ aligns dequantization with the vector-matrix multiplication and enables scale factor reuse across GPU compute units. This reduces memory accesses and accelerates dequantization, yielding up to $22\%$ speedup over previous work and up to $88\%$ over half-precision vector-matrix multiplication. To preserve fidelity under aggressive compression, InnerQ incorporates (i) hybrid quantization, selecting symmetric or asymmetric quantization per group based on local statistics; (ii) high-precision windows for both the most recent tokens and the attention sink tokens to mitigate outlier leakage; and (iii) per-channel normalization of the key cache, computed once during prefill and folded into the query to avoid runtime overhead. Our evaluation experiments on Llama models shows that InnerQ maintains a few-shot GSM8K performance comparable to non-quantized KV caches and surpasses prior KV cache quantization methods.