LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference

📄 arXiv: 2406.18139v1 📥 PDF

作者: Zhongwei Wan, Ziang Wu, Che Liu, Jinfa Huang, Zhihong Zhu, Peng Jin, Longyue Wang, Li Yuan

分类: cs.CL, cs.CV

发布日期: 2024-06-26


💡 一句话要点

提出LOOK-M,用于高效多模态长文本推理的KV缓存单次优化。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 长文本推理 KV缓存优化 大语言模型 模型压缩

📋 核心要点

  1. 长文本多模态大语言模型推理面临KV缓存增长带来的内存和效率挑战,现有优化方法难以有效处理图像token占比高的多模态场景。
  2. LOOK-M通过观察模型在prompt预填充阶段对文本的更高关注度,提出文本优先的KV缓存压缩方法,并结合KV对合并策略补偿图像信息损失。
  3. 实验表明,LOOK-M在显著减少KV缓存内存占用(最高80%)的同时,解码速度提升高达1.5倍,并在多种长文本多模态任务中保持甚至提升了性能。

📝 摘要(中文)

长文本多模态大语言模型(MLLM)因其多模态键值(KV)缓存的增长而需要大量的计算资源来进行推理,这给内存和时间效率带来了挑战。与仅管理文本上下文的单模态LLM不同,长文本MLLM的KV缓存包括来自多个具有时间和空间关系的图像以及相关的文本上下文的表示。图像token的优势意味着传统的LLM的KV缓存优化不适用于多模态长文本设置,并且没有先前的工作解决这一挑战。在这项工作中,我们介绍LOOK-M,这是一种开创性的、无需微调的方法,可以有效地减少多模态KV缓存大小,同时保持与完整缓存相当的性能。我们观察到,在prompt预填充期间,模型优先考虑更多的文本注意力而不是图像特征,并且基于多模态交互观察,探索了一种新的文本优先方法来压缩KV缓存。此外,为了减轻图像上下文信息的退化,我们提出了几种使用KV对合并的补偿策略。LOOK-M表明,通过显著减少KV缓存内存使用量(在某些情况下减少80%),它不仅实现了高达1.5倍的解码速度,而且在各种长文本多模态任务中保持甚至提高了性能。

🔬 方法详解

问题定义:论文旨在解决长文本多模态大语言模型推理过程中,由于KV缓存过大导致的内存占用高、推理速度慢的问题。现有针对单模态LLM的KV缓存优化方法,无法有效处理多模态场景下图像token占比高、模态间交互复杂的特点。

核心思路:论文的核心思路是利用多模态模型在prompt预填充阶段对文本信息更高的关注度,优先保留文本相关的KV对,从而压缩KV缓存。同时,为了避免图像上下文信息的损失,采用KV对合并等补偿策略。

技术框架:LOOK-M方法主要包含两个阶段:1) 文本优先的KV缓存压缩:在prompt预填充阶段,根据token类型(文本或图像)和注意力权重,选择性地保留文本相关的KV对,丢弃部分图像相关的KV对。2) 图像信息补偿:为了弥补图像信息损失,采用KV对合并策略,将多个图像相关的KV对合并为一个,从而减少KV缓存大小,同时保留一定的图像上下文信息。

关键创新:该方法的核心创新在于针对多模态长文本场景,提出了文本优先的KV缓存压缩策略,并结合图像信息补偿机制。与传统方法相比,该方法能够更有效地减少KV缓存大小,同时保持甚至提升模型性能。

关键设计:在文本优先的KV缓存压缩中,关键参数是文本KV对的保留比例,需要根据具体任务和数据集进行调整。KV对合并策略中,需要选择合适的合并方式和合并比例,以平衡KV缓存大小和图像信息损失。论文中可能还涉及注意力权重的计算方式、KV对选择的阈值等技术细节,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LOOK-M在多个长文本多模态任务上进行了实验验证,结果表明,在KV缓存减少80%的情况下,解码速度提升高达1.5倍,并且在某些任务上性能甚至有所提升。这些结果表明,LOOK-M能够有效地减少KV缓存大小,同时保持甚至提升模型性能,具有很高的实用价值。

🎯 应用场景

该研究成果可应用于各种需要处理长文本和多模态信息的场景,例如:智能文档处理、多模态对话系统、长篇故事生成、多模态信息检索等。通过降低内存占用和提升推理速度,可以使这些应用在资源受限的设备上运行,并提升用户体验。未来,该方法可以进一步扩展到更多模态和更复杂的任务中。

📄 摘要(原文)

Long-context Multimodal Large Language Models (MLLMs) demand substantial computational resources for inference as the growth of their multimodal Key-Value (KV) cache, in response to increasing input lengths, challenges memory and time efficiency. Unlike single-modality LLMs that manage only textual contexts, the KV cache of long-context MLLMs includes representations from multiple images with temporal and spatial relationships and related textual contexts. The predominance of image tokens means traditional optimizations for LLMs' KV caches are unsuitable for multimodal long-context settings, and no prior works have addressed this challenge. In this work, we introduce LOOK-M, a pioneering, fine-tuning-free approach that efficiently reduces the multimodal KV cache size while maintaining performance comparable to a full cache. We observe that during prompt prefill, the model prioritizes more textual attention over image features, and based on the multimodal interaction observation, a new proposed text-prior method is explored to compress the KV cache. Furthermore, to mitigate the degradation of image contextual information, we propose several compensatory strategies using KV pairs merging. LOOK-M demonstrates that with a significant reduction in KV Cache memory usage, such as reducing it by 80% in some cases, it not only achieves up to 1.5x faster decoding but also maintains or even enhances performance across a variety of long context multimodal tasks.