AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models

📄 arXiv: 2501.15021v1 📥 PDF

作者: Zunhai Su, Wang Shen, Linge Li, Zhe Chen, Hanyu Wei, Huangqi Yu, Kehong Yuan

分类: cs.CL

发布日期: 2025-01-25


💡 一句话要点

提出AKVQ-VL以解决多模态模型KV缓存过大问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 KV缓存 注意力机制 量化方法 Walsh-Hadamard变换 性能优化 内存管理

📋 核心要点

  1. 现有的KV量化方法未能有效处理多模态输入的注意力显著性差异,导致内存消耗和I/O瓶颈问题。
  2. AKVQ-VL通过引入文本显著注意力和枢轴标记显著注意力模式,动态分配比特预算以优化KV缓存。
  3. 实验结果显示,AKVQ-VL在12个任务上实现了2比特量化,准确度保持或提升,内存使用显著降低。

📝 摘要(中文)

多模态模型(VLMs)在多任务处理上表现出色,但过长的输入导致KV缓存过大,造成显著的内存消耗和I/O瓶颈。现有的KV量化方法虽然能缓解这些问题,但未能考虑多模态标记的注意力显著性差异,导致性能不佳。本文提出AKVQ-VL,利用文本显著注意力(TSA)和枢轴标记显著注意力(PSA)模式,动态分配比特预算。此外,AKVQ-VL通过Walsh-Hadamard变换(WHT)构建无异常值的KV缓存,降低量化难度。对12个长上下文和多模态任务的2比特量化评估表明,AKVQ-VL在保持或提升准确度的同时,超越了面向LLM的方法,能够将峰值内存使用减少2.13倍,支持高达3.25倍的批量大小和2.46倍的吞吐量。

🔬 方法详解

问题定义:本文旨在解决多模态模型中KV缓存过大导致的内存消耗和I/O瓶颈问题。现有的KV量化方法未能考虑多模态标记的注意力显著性差异,导致性能下降。

核心思路:AKVQ-VL通过引入文本显著注意力(TSA)和枢轴标记显著注意力(PSA)模式,动态分配比特预算,从而优化KV缓存的使用效率。

技术框架:AKVQ-VL的整体架构包括两个主要模块:首先是基于注意力的显著性分析模块,其次是基于Walsh-Hadamard变换的KV缓存构建模块。

关键创新:AKVQ-VL的核心创新在于引入了注意力显著性模式,使得比特预算的分配更加合理,显著提升了量化性能。与现有方法相比,AKVQ-VL能够更好地处理多模态输入的特性。

关键设计:在设计中,AKVQ-VL采用了Walsh-Hadamard变换来构建无异常值的KV缓存,并在比特分配上进行了动态调整,以适应不同的输入特性。

📊 实验亮点

实验结果表明,AKVQ-VL在12个长上下文和多模态任务上实现了2比特量化,准确度保持或提升,峰值内存使用减少2.13倍,支持高达3.25倍的批量大小和2.46倍的吞吐量,显著优于现有LLM导向的方法。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理与计算机视觉的结合,如图像描述生成、视觉问答等。通过优化KV缓存,AKVQ-VL能够在资源受限的环境中实现高效的多模态任务处理,具有重要的实际价值和未来影响。

📄 摘要(原文)

Vision-language models (VLMs) show remarkable performance in multimodal tasks. However, excessively long multimodal inputs lead to oversized Key-Value (KV) caches, resulting in significant memory consumption and I/O bottlenecks. Previous KV quantization methods for Large Language Models (LLMs) may alleviate these issues but overlook the attention saliency differences of multimodal tokens, resulting in suboptimal performance. In this paper, we investigate the attention-aware token saliency patterns in VLM and propose AKVQ-VL. AKVQ-VL leverages the proposed Text-Salient Attention (TSA) and Pivot-Token-Salient Attention (PSA) patterns to adaptively allocate bit budgets. Moreover, achieving extremely low-bit quantization requires effectively addressing outliers in KV tensors. AKVQ-VL utilizes the Walsh-Hadamard transform (WHT) to construct outlier-free KV caches, thereby reducing quantization difficulty. Evaluations of 2-bit quantization on 12 long-context and multimodal tasks demonstrate that AKVQ-VL maintains or even improves accuracy, outperforming LLM-oriented methods. AKVQ-VL can reduce peak memory usage by 2.13x, support up to 3.25x larger batch sizes and 2.46x throughput.