GRKV: Global Regression for Training-Free KV Cache Compression in Long-Context LLMs

作者: Junjie Peng, You Wu, Haoyi Wu, Jialong Han, Xiaohua Xie, Kewei Tu, Jianhuang Lai

分类: cs.CL

发布日期: 2026-05-29

备注: 21 pages, 7 figures

💡 一句话要点

GRKV：通过全局回归实现长文本LLM中免训练的KV缓存压缩

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: KV缓存压缩 长文本LLM 全局回归 岭回归 注意力机制

📋 核心要点

长文本LLM的KV缓存占用大量内存，现有基于span的驱逐方法与合并策略结合时，易导致信息集中在少量token上，造成信息损失。
GRKV通过全局回归直接最小化压缩前后注意力输出的差异，使用岭回归将驱逐token的信息分散到保留token，避免过度平滑。
实验表明，GRKV在LongBench和RULER基准测试中，以最小的开销提高了整体性能，优于其他合并方法。

📝 摘要（中文）

具有扩展上下文长度的大型语言模型（LLM）依赖于键值（KV）缓存来支持对先前token的注意力机制。然而，维护KV缓存会产生大量的内存开销，因此需要通过驱逐和合并来强制执行固定预算的KV缓存压缩方法。现代驱逐方法越来越多地采用基于span的保留策略，因为经验表明，保留连续的span是有效的，并且能更好地保持语义连贯性。然而，当与驱逐后的合并相结合时，基于span的保留会将合并集中到一小部分span边界的载体token上，从而产生高度不平衡的合并模式，加剧过度合并并增加信息丢失。为了解决这种不平衡，我们提出了GRKV（用于KV缓存的全局回归），这是一种免训练的KV缓存合并方法，它直接最小化压缩缓存和完整缓存注意力输出之间的差异。GRKV使用基于岭回归的合并步骤，将来自驱逐token的信息分布到保留的token上，同时规范化更新以防止过度平滑。在LongBench和RULER长文本基准测试中，GRKV是唯一一种在最小开销下提高整体性能的合并方法。

🔬 方法详解

问题定义：论文旨在解决长文本LLM中KV缓存压缩时，现有方法（特别是基于span的驱逐策略结合合并策略）导致的信息损失问题。现有方法的痛点在于，基于span的驱逐策略在合并时容易将信息集中在少量token上，造成信息不平衡和过度合并，最终导致性能下降。

核心思路：论文的核心思路是通过全局回归，直接优化压缩后的KV缓存，使其注意力输出尽可能接近原始完整KV缓存的注意力输出。通过最小化两者之间的差异，实现更有效的KV缓存压缩，同时避免信息过度集中和损失。

技术框架：GRKV方法主要包含以下步骤：1) 基于某种驱逐策略（如基于span的策略）选择需要保留的token；2) 使用岭回归方法，将需要驱逐的token的信息分配到保留的token上；3) 通过正则化项防止过度平滑，保持信息的局部性。整体流程是先驱逐，再通过全局回归进行信息合并和调整。

关键创新：GRKV的关键创新在于使用全局回归来优化KV缓存的合并过程，这与传统的局部合并方法不同。它直接优化最终的注意力输出，而不是关注token级别的合并操作。此外，使用岭回归和正则化项可以有效地控制合并过程，避免过度平滑和信息损失。GRKV是一种免训练的方法，不需要额外的训练数据或计算资源。

关键设计：GRKV的关键设计包括：1) 使用岭回归作为全局回归的优化方法，岭回归可以有效地处理多重共线性问题，并提供稳定的解；2) 引入正则化项来控制合并的强度，防止过度平滑，正则化系数是一个重要的超参数，需要根据具体任务进行调整；3) 损失函数定义为压缩前后注意力输出之间的差异，可以使用L2范数或其他合适的距离度量。

🖼️ 关键图片

📊 实验亮点

GRKV在LongBench和RULER长文本基准测试中取得了显著的性能提升。实验结果表明，GRKV是唯一一种在最小开销下提高整体性能的合并方法。具体来说，GRKV在多个长文本任务上优于现有的KV缓存压缩方法，并且具有较低的计算开销。这些结果验证了GRKV在长文本LLM中KV缓存压缩方面的有效性。

🎯 应用场景

GRKV方法可以应用于各种需要长文本处理的大型语言模型，例如文档摘要、机器翻译、问答系统和代码生成等。通过降低KV缓存的内存占用，GRKV可以使这些模型在资源受限的设备上运行，或者处理更长的上下文，从而提高模型的性能和适用性。该方法具有免训练的特点，易于集成到现有的LLM框架中。

📄 摘要（原文）

Large language models (LLMs) with extended context lengths rely on the key-value (KV) cache to support attention over prior tokens. However, maintaining the KV cache incurs substantial memory overhead, motivating KV-cache compression methods that enforce a fixed budget through eviction and merging. Modern eviction methods increasingly adopt span-based retention because preserving contiguous spans is empirically effective and better preserves semantic coherence. Yet, when combined with post-eviction merging, span-based retention concentrates merges onto a small set of span-boundary carrier tokens, producing a highly imbalanced merge pattern that exacerbates over-merging and increases information loss. To address this imbalance, we propose GRKV (Global Regression for KV Cache), a training-free KV-cache merging method that directly minimizes the discrepancy between compressed-cache and full-cache attention outputs. GRKV uses ridge-regression-based merge steps to distribute information from evicted tokens across retained tokens, while regularizing the updates to prevent over-smoothing. Across the LongBench and RULER long-context benchmarks, GRKV is the only merging method that improves overall performance with minimal overhead.

GRKV: Global Regression for Training-Free KV Cache Compression in Long-Context LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理