Make Your LVLM KV Cache More Lightweight

📄 arXiv: 2605.00789v1 📥 PDF

作者: Xihao Chen, Yangyang Guo, Roger Zimmermann

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-01

备注: Accepted to Transactions on Machine Learning Research (TMLR), 2026


💡 一句话要点

LightKV:通过提示引导的跨模态压缩,减少LVLM中KV缓存的内存占用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 KV缓存 模型压缩 跨模态学习 提示学习

📋 核心要点

  1. LVLM推理中KV缓存占用大量GPU内存,尤其是在预填充阶段处理大量视觉tokens时。
  2. LightKV利用文本提示引导的跨模态消息传递,聚合视觉tokens信息并逐步压缩,减少KV缓存大小。
  3. 实验表明,LightKV仅用55%的视觉tokens,将KV缓存减半,计算量减少40%,并优于现有方法。

📝 摘要(中文)

Key-Value (KV) 缓存已成为现代大型视觉-语言模型 (LVLM) 推理中的标准组件。虽然它提高了大型语言模型 (LLM) 的解码效率,但由于预填充阶段处理的大量视觉 tokens,直接应用于 LVLM 会带来巨大的 GPU 内存开销。为了解决这个问题,我们提出了一种新颖的方法 LightKV,它通过利用视觉 token 嵌入之间的冗余来减少 KV 缓存大小。在文本提示的引导下,LightKV 采用跨模态消息传递来聚合视觉 token 中的信息性消息,并在预填充期间逐步压缩它们。这种提示感知的引导使我们的方法与先前的纯视觉压缩策略区分开来。我们在八个开源 LVLM 上,跨八个公共基准数据集(例如 MME 和 SeedBench)评估了 LightKV。实验结果表明,仅使用原始视觉 tokens 的 55%,LightKV 就能 (a) 将视觉 token KV 缓存大小减半,(b) 将计算量减少高达 40%,并且 (c) 在保持通用性能的同时,显著优于现有的基线。

🔬 方法详解

问题定义:大型视觉语言模型(LVLM)在推理时,Key-Value (KV) 缓存会占用大量的GPU内存,尤其是在预填充(prefill)阶段处理大量视觉tokens时。现有的方法要么是直接采用LLM的KV缓存机制,导致内存开销巨大,要么是采用纯视觉的压缩策略,忽略了文本提示信息,压缩效果有限。

核心思路:LightKV的核心思路是利用视觉tokens之间的冗余性,通过跨模态消息传递,在文本提示的引导下,聚合视觉tokens中的信息性消息,并在预填充阶段逐步压缩这些tokens。这样既能减少KV缓存的大小,又能保留关键的视觉信息,从而保证模型的性能。

技术框架:LightKV主要包含以下几个阶段:1) 视觉tokens嵌入:将输入的视觉信息转换为tokens嵌入表示。2) 跨模态消息传递:利用文本提示信息,指导视觉tokens之间的消息传递,聚合信息。3) 视觉tokens压缩:逐步压缩视觉tokens,减少KV缓存的大小。4) 解码:利用压缩后的KV缓存进行解码,生成最终的输出。

关键创新:LightKV最重要的创新在于其提示感知的跨模态压缩策略。与以往的纯视觉压缩方法不同,LightKV充分利用了文本提示信息,指导视觉tokens的压缩过程,从而能够更有效地去除冗余信息,保留关键信息。这种跨模态的融合使得LightKV在压缩效率和性能保持方面都优于现有方法。

关键设计:LightKV的关键设计包括:1) 跨模态消息传递机制的具体实现,例如使用注意力机制来融合文本和视觉信息。2) 视觉tokens压缩的策略,例如使用聚类或量化等方法来减少tokens的数量。3) 损失函数的设计,例如使用重构损失来保证压缩后的tokens能够尽可能地保留原始信息。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LightKV在八个开源LVLM和八个公共基准数据集上表现出色。仅使用原始视觉tokens的55%,LightKV就能将视觉token KV缓存大小减半,并将计算量减少高达40%。同时,LightKV在保持通用性能的前提下,显著优于现有的基线方法,证明了其在减少内存占用和提高计算效率方面的有效性。

🎯 应用场景

LightKV技术可广泛应用于各种需要高效推理的大型视觉语言模型应用中,例如图像描述、视觉问答、图像生成等。通过减少GPU内存占用,LightKV可以降低部署成本,提高推理速度,并使得在资源受限的设备上运行复杂的LVLM成为可能。未来,该技术有望进一步推动LVLM在移动设备、嵌入式系统等领域的应用。

📄 摘要(原文)

Key-Value (KV) cache has become a de facto component of modern Large Vision-Language Models (LVLMs) for inference. While it enhances decoding efficiency in Large Language Models (LLMs), its direct adoption in LVLMs introduces substantial GPU memory overhead due to the large number of vision tokens processed during the prefill stage. To tackle this problem, we propose LightKV, a novel approach that reduces KV cache size by exploiting the redundancy among vision-token embeddings. Guided by text prompts, LightKV employs cross-modality message passing to aggregate informative messages across vision tokens and progressively compress them during prefill. This prompt-aware guidance distinguishes our method from prior vision-only compression strategies. We evaluate LightKV on eight open-source LVLMs across eight public benchmark datasets, e.g., MME and SeedBench. Experimental results demonstrate that with only 55% of the original vision tokens, LightKV (a) halves the vision-token KV cache size, (b) reduces computation by up to 40%, and (c) preserves general-purpose performance while significantly outperforming existing baselines.