GRKV: Global Regression for Training-Free KV Cache Compression in Long-Context LLMs
作者: Junjie Peng, You Wu, Haoyi Wu, Jialong Han, Xiaohua Xie, Kewei Tu, Jianhuang Lai
分类: cs.CL
发布日期: 2026-05-29
备注: 21 pages, 7 figures
💡 一句话要点
GRKV:通过全局回归实现长文本LLM中免训练的KV缓存压缩
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: KV缓存压缩 长文本LLM 全局回归 岭回归 注意力机制
📋 核心要点
- 长文本LLM的KV缓存占用大量内存,现有基于span的驱逐方法与合并策略结合时,易导致信息集中在少量token上,造成信息损失。
- GRKV通过全局回归直接最小化压缩前后注意力输出的差异,使用岭回归将驱逐token的信息分散到保留token,避免过度平滑。
- 实验表明,GRKV在LongBench和RULER基准测试中,以最小的开销提高了整体性能,优于其他合并方法。
📝 摘要(中文)
具有扩展上下文长度的大型语言模型(LLM)依赖于键值(KV)缓存来支持对先前token的注意力机制。然而,维护KV缓存会产生大量的内存开销,因此需要通过驱逐和合并来强制执行固定预算的KV缓存压缩方法。现代驱逐方法越来越多地采用基于span的保留策略,因为经验表明,保留连续的span是有效的,并且能更好地保持语义连贯性。然而,当与驱逐后的合并相结合时,基于span的保留会将合并集中到一小部分span边界的载体token上,从而产生高度不平衡的合并模式,加剧过度合并并增加信息丢失。为了解决这种不平衡,我们提出了GRKV(用于KV缓存的全局回归),这是一种免训练的KV缓存合并方法,它直接最小化压缩缓存和完整缓存注意力输出之间的差异。GRKV使用基于岭回归的合并步骤,将来自驱逐token的信息分布到保留的token上,同时规范化更新以防止过度平滑。在LongBench和RULER长文本基准测试中,GRKV是唯一一种在最小开销下提高整体性能的合并方法。
🔬 方法详解
问题定义:论文旨在解决长文本LLM中KV缓存压缩时,现有方法(特别是基于span的驱逐策略结合合并策略)导致的信息损失问题。现有方法的痛点在于,基于span的驱逐策略在合并时容易将信息集中在少量token上,造成信息不平衡和过度合并,最终导致性能下降。
核心思路:论文的核心思路是通过全局回归,直接优化压缩后的KV缓存,使其注意力输出尽可能接近原始完整KV缓存的注意力输出。通过最小化两者之间的差异,实现更有效的KV缓存压缩,同时避免信息过度集中和损失。
技术框架:GRKV方法主要包含以下步骤:1) 基于某种驱逐策略(如基于span的策略)选择需要保留的token;2) 使用岭回归方法,将需要驱逐的token的信息分配到保留的token上;3) 通过正则化项防止过度平滑,保持信息的局部性。整体流程是先驱逐,再通过全局回归进行信息合并和调整。
关键创新:GRKV的关键创新在于使用全局回归来优化KV缓存的合并过程,这与传统的局部合并方法不同。它直接优化最终的注意力输出,而不是关注token级别的合并操作。此外,使用岭回归和正则化项可以有效地控制合并过程,避免过度平滑和信息损失。GRKV是一种免训练的方法,不需要额外的训练数据或计算资源。
关键设计:GRKV的关键设计包括:1) 使用岭回归作为全局回归的优化方法,岭回归可以有效地处理多重共线性问题,并提供稳定的解;2) 引入正则化项来控制合并的强度,防止过度平滑,正则化系数是一个重要的超参数,需要根据具体任务进行调整;3) 损失函数定义为压缩前后注意力输出之间的差异,可以使用L2范数或其他合适的距离度量。
🖼️ 关键图片
📊 实验亮点
GRKV在LongBench和RULER长文本基准测试中取得了显著的性能提升。实验结果表明,GRKV是唯一一种在最小开销下提高整体性能的合并方法。具体来说,GRKV在多个长文本任务上优于现有的KV缓存压缩方法,并且具有较低的计算开销。这些结果验证了GRKV在长文本LLM中KV缓存压缩方面的有效性。
🎯 应用场景
GRKV方法可以应用于各种需要长文本处理的大型语言模型,例如文档摘要、机器翻译、问答系统和代码生成等。通过降低KV缓存的内存占用,GRKV可以使这些模型在资源受限的设备上运行,或者处理更长的上下文,从而提高模型的性能和适用性。该方法具有免训练的特点,易于集成到现有的LLM框架中。
📄 摘要(原文)
Large language models (LLMs) with extended context lengths rely on the key-value (KV) cache to support attention over prior tokens. However, maintaining the KV cache incurs substantial memory overhead, motivating KV-cache compression methods that enforce a fixed budget through eviction and merging. Modern eviction methods increasingly adopt span-based retention because preserving contiguous spans is empirically effective and better preserves semantic coherence. Yet, when combined with post-eviction merging, span-based retention concentrates merges onto a small set of span-boundary carrier tokens, producing a highly imbalanced merge pattern that exacerbates over-merging and increases information loss. To address this imbalance, we propose GRKV (Global Regression for KV Cache), a training-free KV-cache merging method that directly minimizes the discrepancy between compressed-cache and full-cache attention outputs. GRKV uses ridge-regression-based merge steps to distribute information from evicted tokens across retained tokens, while regularizing the updates to prevent over-smoothing. Across the LongBench and RULER long-context benchmarks, GRKV is the only merging method that improves overall performance with minimal overhead.