KV-CAR: KV Cache Compression using Autoencoders and KV Reuse in Large Language Models

📄 arXiv: 2512.06727v1 📥 PDF

作者: Sourjya Roy, Shrihari Sridharan, Surya Selvam, Anand Raghunathan

分类: cs.LG

发布日期: 2025-12-07


💡 一句话要点

KV-CAR:利用自编码器压缩KV缓存并在大语言模型中复用KV,降低内存占用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 KV缓存压缩 自编码器 模型推理 内存优化

📋 核心要点

  1. 大语言模型KV缓存的内存需求随序列长度和嵌入维度增长,成为自回归解码的瓶颈,限制了批大小和上下文窗口。
  2. KV-CAR通过自编码器学习KV张量的紧凑表示,并在相邻层之间复用相似的KV张量,从而减少KV缓存的冗余。
  3. 实验表明,KV-CAR在减少高达47.85%的KV缓存内存的同时,对模型困惑度和零样本准确率的影响很小,并提升了推理效率。

📝 摘要(中文)

随着大型语言模型(LLM)在规模和上下文长度上的扩展,键值(KV)缓存的内存需求已成为自回归解码过程中的主要瓶颈。KV缓存随着序列长度和嵌入维度的增长而增长,通常超过模型本身的内存占用,限制了可实现的批处理大小和上下文窗口。为了应对这一挑战,我们提出了KV CAR,一个统一且与架构无关的框架,它在显著减少KV缓存存储的同时保持模型保真度。KV CAR结合了两种互补技术。首先,一个轻量级的自编码器学习键和值张量沿嵌入维度的紧凑表示,在将它们存储在KV缓存中之前对其进行压缩,并在检索时恢复它们。其次,一种相似性驱动的重用机制识别跨相邻层重用特定注意力头的KV张量的机会。总之,这些方法减少了KV张量中的维度和结构冗余,而无需更改Transformer架构。在Wikitext、C4、PIQA和Winogrande数据集上对GPT 2和TinyLLaMA模型的评估表明,KV CAR实现了高达47.85%的KV缓存内存减少,同时对困惑度和零样本准确率的影响最小。在NVIDIA A40 GPU上的系统级测量表明,减少的KV占用直接转化为推理过程中更长的序列长度和更大的批处理大小。这些结果突出了KV CAR在实现内存高效的LLM推理方面的有效性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型推理过程中,KV缓存占用大量内存的问题。现有方法要么需要修改模型结构,要么压缩率有限,无法有效降低内存占用,限制了模型部署和应用。

核心思路:论文的核心思路是利用自编码器压缩KV缓存,并结合KV重用机制,在不显著影响模型性能的前提下,减少KV缓存的内存占用。自编码器用于降低KV张量的维度,KV重用则减少了层间的冗余。

技术框架:KV-CAR框架包含两个主要模块:KV压缩模块和KV重用模块。KV压缩模块使用轻量级自编码器学习KV张量的低维表示,压缩后的KV张量存储在缓存中,在需要时再通过解码器恢复。KV重用模块则通过计算不同层之间KV张量的相似度,将相似的KV张量进行复用,避免重复计算和存储。整体流程是在推理过程中,先对KV张量进行压缩,然后判断是否可以重用,最后将处理后的KV张量存储到缓存中。

关键创新:KV-CAR的关键创新在于结合了自编码器压缩和KV重用两种技术,能够同时减少KV张量的维度冗余和结构冗余。与单独使用压缩或重用相比,KV-CAR能够实现更高的压缩率,同时保持模型性能。此外,KV-CAR是一种与架构无关的框架,可以应用于不同的Transformer模型。

关键设计:自编码器采用轻量级结构,以减少额外的计算开销。损失函数包括重构损失和正则化项,以保证压缩后的KV张量能够较好地恢复,并避免过拟合。KV重用模块使用余弦相似度来衡量KV张量的相似度,并设置阈值来控制重用的程度。阈值的选择需要在内存占用和模型性能之间进行权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KV-CAR在GPT-2和TinyLLaMA模型上,在Wikitext、C4、PIQA和Winogrande数据集上实现了高达47.85%的KV缓存内存减少,同时对困惑度和零样本准确率的影响很小。在NVIDIA A40 GPU上的系统级测量表明,减少的KV占用直接转化为推理过程中更长的序列长度和更大的批处理大小。

🎯 应用场景

KV-CAR可应用于各种需要部署大型语言模型的场景,例如移动设备、边缘计算设备等资源受限的环境。通过降低KV缓存的内存占用,KV-CAR可以支持更大的批处理大小和更长的上下文窗口,从而提高模型的推理效率和用户体验。该技术还有助于降低云端部署的成本,并加速LLM在各行业的落地。

📄 摘要(原文)

As Large Language Models (LLMs) scale in size and context length, the memory requirements of the key value (KV) cache have emerged as a major bottleneck during autoregressive decoding. The KV cache grows with sequence length and embedding dimension, often exceeding the memory footprint of the model itself and limiting achievable batch sizes and context windows. To address this challenge, we present KV CAR, a unified and architecture agnostic framework that significantly reduces KV cache storage while maintaining model fidelity. KV CAR combines two complementary techniques. First, a lightweight autoencoder learns compact representations of key and value tensors along the embedding dimension, compressing them before they are stored in the KV cache and restoring them upon retrieval. Second, a similarity driven reuse mechanism identifies opportunities to reuse KV tensors of specific attention heads across adjacent layers. Together, these methods reduce the dimensional and structural redundancy in KV tensors without requiring changes to the transformer architecture. Evaluations on GPT 2 and TinyLLaMA models across Wikitext, C4, PIQA, and Winogrande datasets demonstrate that KV CAR achieves up to 47.85 percent KV cache memory reduction with minimal impact on perplexity and zero shot accuracy. System level measurements on an NVIDIA A40 GPU show that the reduced KV footprint directly translates into longer sequence lengths and larger batch sizes during inference. These results highlight the effectiveness of KV CAR in enabling memory efficient LLM inference.