SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention

作者: Hong Yankun, Li Xing, Zhen Hui-Ling, Yu Xianzhi, Liu Wulong, Yuan Mingxuan

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-02-21

💡 一句话要点

SVDq：一种基于SVD的混合精度量化方法，实现LLM Attention中KV缓存的超高压缩率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: KV缓存压缩 奇异值分解 混合精度量化 大语言模型 模型推理加速

📋 核心要点

大型语言模型推理效率受限于KV缓存的存储和访问，现有压缩方法在精度和压缩率上存在瓶颈。
SVDq利用SVD将KV缓存转换到潜在空间，并根据通道重要性进行混合精度量化，从而优化精度分配。
实验表明，SVDq能达到1.25比特等效精度，结合稀疏化可实现410倍压缩率，且在长文本数据集上近乎无损。

📝 摘要（中文）

本文提出了一种基于奇异值分解(SVD)的混合精度量化方法SVDq，用于压缩大型语言模型(LLM)中的键值(KV)缓存。该方法首先利用SVD基表示将K缓存转换为潜在通道。由于潜在通道中的值迅速衰减，并在少数通道后变得可以忽略不计，因此SVDq对潜在通道进行重要性感知量化和压缩，从而能够为更重要的通道分配更高的精度。理论上证明，SVDq产生的量化误差远低于原始空间中逐通道密钥量化的误差。在RULER和LongBench基准测试上的结果表明，SVDq可以实现低至1.25比特的等效密钥缓存精度。当与密钥稀疏性结合使用时，可以在保持相当模型性能的同时，实现高达410倍的attention计算密钥压缩率。值得注意的是，该方法对于LongBench数据集几乎是无损的。这表明SVDq能够实现高精度低比特量化，为LLM中的KV缓存压缩提供了一种更有效的解决方案。

🔬 方法详解

问题定义：大型语言模型（LLM）的推理过程中，键值（KV）缓存占据了大量的内存空间，成为性能瓶颈。现有的KV缓存压缩技术，如稀疏化、通道压缩和量化，在压缩率和精度之间难以取得平衡，尤其是在长文本处理中，精度损失会显著影响模型性能。因此，如何在保证模型性能的前提下，实现KV缓存的高效压缩是一个关键问题。

核心思路：SVDq的核心思路是利用奇异值分解（SVD）将KV缓存转换到低维潜在空间，并在该空间中进行量化。由于SVD能够将数据分解为一系列正交基，且奇异值呈快速衰减趋势，因此可以通过保留少量重要的潜在通道来近似原始数据。此外，SVDq采用重要性感知量化，为更重要的潜在通道分配更高的精度，从而在有限的比特数下最大化信息的保留。

技术框架：SVDq方法主要包含以下几个阶段：1. SVD分解：对K缓存进行SVD分解，得到潜在通道和对应的奇异值。2. 重要性评估：根据奇异值的大小评估每个潜在通道的重要性。3. 混合精度量化：根据通道的重要性，为不同的通道分配不同的量化比特数。更重要的通道分配更高的精度，不重要的通道分配更低的精度甚至直接丢弃。4. 压缩存储：将量化后的潜在通道和SVD基向量进行压缩存储。在推理时，通过SVD重构近似的K缓存。

关键创新：SVDq的关键创新在于将SVD分解与混合精度量化相结合，实现了对KV缓存的高效压缩。与传统的逐通道量化方法相比，SVDq能够在潜在空间中进行量化，从而更好地利用数据的内在结构，降低量化误差。此外，重要性感知量化能够根据通道的重要性动态调整量化精度，进一步优化了压缩效果。

关键设计：SVDq的关键设计包括：1. SVD分解的维度选择：需要根据实际情况选择合适的SVD分解维度，以平衡压缩率和精度。2. 重要性评估策略：可以使用不同的指标来评估通道的重要性，例如奇异值的大小、能量占比等。3. 混合精度量化方案：可以根据通道的重要性，选择不同的量化比特数和量化方法。4. 量化误差分析：论文从理论上分析了SVDq的量化误差，并证明其远低于原始空间的逐通道量化。

🖼️ 关键图片

📊 实验亮点

SVDq在RULER和LongBench基准测试中表现出色，实现了低至1.25比特的等效密钥缓存精度。结合密钥稀疏化技术，SVDq能够实现高达410倍的attention计算密钥压缩率，同时保持与原始模型相当的性能。尤其值得一提的是，SVDq在LongBench数据集上实现了近乎无损的压缩效果，表明其在处理长文本任务时具有显著优势。

🎯 应用场景

SVDq技术可广泛应用于各种需要高效LLM推理的场景，例如移动设备上的本地部署、边缘计算环境以及大规模在线服务。通过降低KV缓存的存储需求和访问带宽，SVDq能够显著提升LLM的推理速度和能效，从而降低部署成本，并扩展LLM的应用范围。该技术还有助于在资源受限的环境中部署更大规模的LLM。

📄 摘要（原文）

For the efficient inference of Large Language Models (LLMs), the effective compression of key-value (KV) cache is essential. Three main types of KV cache compression techniques, namely sparsity, channel compression, and quantization, have been identified. This study presents SVDq, a Singular Value Decomposition (SVD) - based mixed precision quantization method for K cache. Initially, K cache is transformed into latent channels using SVD basis representations. Since the values in latent channels decay rapidly and become negligible after only a few latent channels, our method then incorporates importance-aware quantization and compression for latent channels. This enables the effective allocation of higher precision to more significant channels. Theoretically, we prove that SVDq results in quantization errors (x0.1 or even lower) that are much lower than those of per-channel key quantization in the original space. Our findings based on RULER and LongBench benchmarks demonstrate that SVDq can achieve an equivalent key cache precision as low as 1.25-bit. When combined with key sparsity, it can reach a key compression ratio of up to 410x for attention computation, all while maintaining comparable model performance. Notably, our method is nearly lossless for LongBench datasets. This indicates that SVDq enables high-precision low-bit quantization, providing a more efficient solution for KV cache compression in LLMs.

SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理