Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

作者: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu

分类: cs.CL, cs.AI

发布日期: 2025-02-04 (更新: 2025-05-21)

备注: 25 pages

💡 一句话要点

针对KV缓存压缩对LLM能力的影响，提出ShotKV压缩方法，提升长文本生成性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 KV缓存压缩 长文本生成 模型能力评估 语义连贯性

📋 核心要点

现有KV缓存压缩方法虽然压缩率高，但对LLM基本能力的影响缺乏系统性评估。
论文提出ShotKV，区分预填充和解码阶段，保持shot级别的语义连贯性，实现高效压缩。
实验表明，ShotKV在激进压缩率下，长文本生成任务性能提升9%-18%。

📝 摘要（中文）

本文研究了大语言模型（LLM）中一个未被充分探索的挑战：KV缓存压缩方法对LLM基本能力的影响。尽管现有方法在长文本基准测试中实现了令人印象深刻的压缩率，但它们对核心模型能力的影响仍未得到充分研究。我们提出了一个全面的基准测试KVFundaBench，以系统地评估KV缓存压缩在各种基本LLM能力上的影响，包括世界知识、常识推理、算术推理、代码生成、安全性以及长文本理解和生成。我们的分析揭示了几个关键发现：（1）任务相关的性能下降；（2）模型类型的鲁棒性；（3）提示长度的脆弱性；（4）块级别方法的优越性；（5）提示增益的敏感性；（6）长文本生成敏感性。基于我们对注意力模式和跨任务压缩性能的分析，我们提出了一种新颖的压缩方法ShotKV，该方法独特地处理预填充和解码阶段，同时保持shot级别的语义连贯性。实验结果表明，在激进的压缩率下，ShotKV在长文本生成任务中实现了9%-18%的性能提升。

🔬 方法详解

问题定义：现有KV缓存压缩方法主要关注压缩率，忽略了对LLM基本能力的潜在影响，尤其是在世界知识、推理、代码生成和安全性等方面。现有方法可能会损害模型在这些方面的表现，限制了LLM在实际应用中的可靠性。

核心思路：ShotKV的核心思路是区分对待预填充（prefill）和解码（decoding）阶段的KV缓存。预填充阶段负责处理初始prompt，解码阶段则负责生成后续token。ShotKV旨在通过在shot级别上保持语义连贯性，从而在压缩KV缓存的同时，尽可能地保留LLM的基本能力。

技术框架：ShotKV包含两个主要阶段：预填充阶段和解码阶段。在预填充阶段，ShotKV对输入的prompt进行处理，并生成初始的KV缓存。在解码阶段，ShotKV利用压缩后的KV缓存生成后续的token。ShotKV的关键在于如何在压缩KV缓存的同时，保持shot级别的语义连贯性，从而避免模型性能的显著下降。

关键创新：ShotKV的关键创新在于其对预填充和解码阶段的差异化处理，以及在shot级别上保持语义连贯性的策略。与现有方法不同，ShotKV没有采用统一的压缩策略，而是根据不同阶段的特点，采用了不同的压缩方法。此外，ShotKV还引入了一种新的语义连贯性度量，用于评估压缩后的KV缓存是否能够保持原始prompt的语义信息。

关键设计：ShotKV的具体实现细节包括：(1) 使用聚类算法将prompt分割成不同的shot；(2) 对每个shot的KV缓存进行独立的压缩；(3) 在解码阶段，根据当前token所属的shot，选择相应的KV缓存进行使用；(4) 使用一种基于注意力机制的语义连贯性损失函数，用于训练压缩模型，确保压缩后的KV缓存能够保持原始prompt的语义信息。具体参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ShotKV在激进的压缩率下，在长文本生成任务中实现了9%-18%的性能提升。KVFundaBench基准测试表明，ShotKV在保持模型基本能力方面优于其他KV缓存压缩方法，尤其是在长文本理解和生成方面表现突出。这些结果验证了ShotKV的有效性和优越性。

🎯 应用场景

ShotKV可应用于各种需要长文本生成的大语言模型应用场景，例如：智能客服、内容创作、代码生成等。通过提高压缩率，降低计算和存储成本，同时保持模型的基本能力，ShotKV能够促进LLM在资源受限环境下的部署和应用，并提升用户体验。

📄 摘要（原文）

This paper investigates an underexplored challenge in large language models (LLMs): the impact of KV cache compression methods on LLMs' fundamental capabilities. Although existing methods achieve impressive compression ratios on long-context benchmarks, their effects on core model capabilities remain understudied. We present a comprehensive benchmark KVFundaBench to systematically evaluate the effects of KV cache compression across diverse fundamental LLM capabilities, spanning world knowledge, commonsense reasoning, arithmetic reasoning, code generation, safety, and long-context understanding and generation.Our analysis reveals serval key findings: (1) \textit{Task-Dependent Degradation}; (2) \textit{Model-Type Robustness} (3) \textit{Prompt Length Vulnerability}; (4) \textit{Chunk-Level Superiority}; (5) \textit{Prompt-Gain Sensitivity}; (6) \textit{Long-Context Generation Sensitivity}. Based on our analysis of attention patterns and cross-task compression performance, we propose ShotKV, a novel compression approach that distinctly handles prefill and decoding phases while maintaining shot-level semantic coherence. Empirical results show that ShotKV achieves $9\%$-$18\%$ performance improvements on long-context generation tasks under aggressive compression ratios.

Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理