FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression
作者: Runchao Li, Yao Fu, Mu Sheng, Xianxuan Long, Haotian Yu, Pan Li
分类: cs.CL
发布日期: 2025-07-26
💡 一句话要点
FAEDKV:用于无偏KV缓存压缩的无限窗傅里叶变换
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: KV缓存压缩 长上下文建模 傅里叶变换 无偏压缩 大型语言模型 频率分析 信息检索
📋 核心要点
- 现有KV缓存压缩方法(如token驱逐和学习投影)存在偏差,导致信息丢失或对特定token的过度强调。
- FAEDKV通过无限窗傅里叶变换(IWDFT)将KV缓存转换到频域,确保所有token对压缩表示的均等贡献,实现无偏压缩。
- 实验表明,FAEDKV在LongBench基准测试中优于现有方法高达22%,并在Needle-In-A-Haystack任务中表现出卓越的检索准确性。
📝 摘要(中文)
大型语言模型(LLM)在长上下文任务中的效率通常受到Key-Value(KV)缓存的大量内存占用和计算需求的阻碍。现有的压缩策略,包括token驱逐和学习投影,经常导致有偏差的表示——要么过度强调最近/高注意力的token,要么重复降级来自早期上下文的信息——并且可能需要昂贵的模型再训练。我们提出了FAEDKV(Frequency-Adaptive Infinite-Window for KV cache),这是一个新颖的、免训练的KV缓存压缩框架,可确保无偏的信息保留。FAEDKV通过使用提出的无限窗傅里叶变换(IWDFT)将KV缓存转换到频域来运行。这种方法允许所有token对压缩表示做出均等的贡献,有效地保留了早期和最近的上下文信息。初步的频率消融研究确定了用于分层、有针对性压缩的关键频谱分量。在LongBench基准上的实验表明,FAEDKV优于现有方法高达22%。此外,与基于压缩的方法相比,我们的方法在Needle-In-A-Haystack任务上显示出卓越的、与位置无关的检索准确性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中KV缓存压缩带来的偏差问题。现有方法,如token驱逐和学习投影,要么偏向于最近的token,要么会逐渐降低早期token的信息质量,导致模型性能下降,尤其是在长上下文任务中。这些方法通常还需要重新训练模型,增加了计算成本。
核心思路:FAEDKV的核心思路是将KV缓存转换到频域,利用傅里叶变换的特性,使得每个token的信息在频域中得到均等的表示。通过在频域进行压缩,可以避免对特定位置或特定类型的token的偏好,从而实现无偏的压缩。
技术框架:FAEDKV框架主要包含以下几个步骤:1) 使用无限窗傅里叶变换(IWDFT)将KV缓存从时域转换到频域。2) 在频域中进行压缩,例如通过选择重要的频率分量。3) 将压缩后的频域表示用于后续的语言模型推理。整个过程无需模型重新训练。
关键创新:FAEDKV的关键创新在于提出了无限窗傅里叶变换(IWDFT),并将其应用于KV缓存压缩。IWDFT能够有效地将KV缓存中的信息转换到频域,并且允许所有token对压缩表示做出均等的贡献,从而避免了传统压缩方法中的偏差问题。这是与现有基于token驱逐或学习投影的压缩方法最本质的区别。
关键设计:IWDFT的具体实现细节(未知,论文中可能包含),以及如何选择重要的频率分量进行压缩(可能涉及频率消融研究的结果)。此外,如何将压缩后的频域表示有效地集成到现有的语言模型架构中,也是一个关键的设计考虑。
🖼️ 关键图片
📊 实验亮点
FAEDKV在LongBench基准测试中表现出显著的性能提升,优于现有方法高达22%。此外,在Needle-In-A-Haystack任务中,FAEDKV展现出卓越的、与位置无关的检索准确性,证明了其在长上下文信息检索方面的优势。这些实验结果表明FAEDKV是一种有效的、无偏的KV缓存压缩方法。
🎯 应用场景
FAEDKV可应用于各种需要处理长上下文的大型语言模型应用场景,例如长文本摘要、机器翻译、问答系统和代码生成等。通过降低KV缓存的内存占用和计算需求,FAEDKV能够提升LLM在资源受限环境下的部署能力,并加速推理过程,具有重要的实际应用价值。
📄 摘要(原文)
The efficacy of Large Language Models (LLMs) in long-context tasks is often hampered by the substantial memory footprint and computational demands of the Key-Value (KV) cache. Current compression strategies, including token eviction and learned projections, frequently lead to biased representations -- either by overemphasizing recent/high-attention tokens or by repeatedly degrading information from earlier context -- and may require costly model retraining. We present FAEDKV (Frequency-Adaptive Infinite-Window for KV cache), a novel, training-free KV cache compression framework that ensures unbiased information retention. FAEDKV operates by transforming the KV cache into the frequency domain using a proposed Infinite-Window Fourier Transform (IWDFT). This approach allows for the equalized contribution of all tokens to the compressed representation, effectively preserving both early and recent contextual information. A preliminary frequency ablation study identifies critical spectral components for layer-wise, targeted compression. Experiments on LongBench benchmark demonstrate FAEDKV's superiority over existing methods by up to 22\%. In addition, our method shows superior, position-agnostic retrieval accuracy on the Needle-In-A-Haystack task compared to compression based approaches.