FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression

作者: Runchao Li, Yao Fu, Mu Sheng, Xianxuan Long, Haotian Yu, Pan Li

分类: cs.CL

发布日期: 2025-07-26

💡 一句话要点

FAEDKV：用于无偏KV缓存压缩的无限窗傅里叶变换

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: KV缓存压缩 长上下文建模 傅里叶变换 无偏压缩 大型语言模型 频率分析 信息检索

📋 核心要点

现有KV缓存压缩方法（如token驱逐和学习投影）存在偏差，导致信息丢失或对特定token的过度强调。
FAEDKV通过无限窗傅里叶变换（IWDFT）将KV缓存转换到频域，确保所有token对压缩表示的均等贡献，实现无偏压缩。
实验表明，FAEDKV在LongBench基准测试中优于现有方法高达22%，并在Needle-In-A-Haystack任务中表现出卓越的检索准确性。

📝 摘要（中文）

大型语言模型（LLM）在长上下文任务中的效率通常受到Key-Value（KV）缓存的大量内存占用和计算需求的阻碍。现有的压缩策略，包括token驱逐和学习投影，经常导致有偏差的表示——要么过度强调最近/高注意力的token，要么重复降级来自早期上下文的信息——并且可能需要昂贵的模型再训练。我们提出了FAEDKV（Frequency-Adaptive Infinite-Window for KV cache），这是一个新颖的、免训练的KV缓存压缩框架，可确保无偏的信息保留。FAEDKV通过使用提出的无限窗傅里叶变换（IWDFT）将KV缓存转换到频域来运行。这种方法允许所有token对压缩表示做出均等的贡献，有效地保留了早期和最近的上下文信息。初步的频率消融研究确定了用于分层、有针对性压缩的关键频谱分量。在LongBench基准上的实验表明，FAEDKV优于现有方法高达22%。此外，与基于压缩的方法相比，我们的方法在Needle-In-A-Haystack任务上显示出卓越的、与位置无关的检索准确性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型中KV缓存压缩带来的偏差问题。现有方法，如token驱逐和学习投影，要么偏向于最近的token，要么会逐渐降低早期token的信息质量，导致模型性能下降，尤其是在长上下文任务中。这些方法通常还需要重新训练模型，增加了计算成本。

核心思路：FAEDKV的核心思路是将KV缓存转换到频域，利用傅里叶变换的特性，使得每个token的信息在频域中得到均等的表示。通过在频域进行压缩，可以避免对特定位置或特定类型的token的偏好，从而实现无偏的压缩。

技术框架：FAEDKV框架主要包含以下几个步骤：1) 使用无限窗傅里叶变换（IWDFT）将KV缓存从时域转换到频域。2) 在频域中进行压缩，例如通过选择重要的频率分量。3) 将压缩后的频域表示用于后续的语言模型推理。整个过程无需模型重新训练。

关键创新：FAEDKV的关键创新在于提出了无限窗傅里叶变换（IWDFT），并将其应用于KV缓存压缩。IWDFT能够有效地将KV缓存中的信息转换到频域，并且允许所有token对压缩表示做出均等的贡献，从而避免了传统压缩方法中的偏差问题。这是与现有基于token驱逐或学习投影的压缩方法最本质的区别。

关键设计：IWDFT的具体实现细节（未知，论文中可能包含），以及如何选择重要的频率分量进行压缩（可能涉及频率消融研究的结果）。此外，如何将压缩后的频域表示有效地集成到现有的语言模型架构中，也是一个关键的设计考虑。

🖼️ 关键图片

📊 实验亮点

FAEDKV在LongBench基准测试中表现出显著的性能提升，优于现有方法高达22%。此外，在Needle-In-A-Haystack任务中，FAEDKV展现出卓越的、与位置无关的检索准确性，证明了其在长上下文信息检索方面的优势。这些实验结果表明FAEDKV是一种有效的、无偏的KV缓存压缩方法。

🎯 应用场景

FAEDKV可应用于各种需要处理长上下文的大型语言模型应用场景，例如长文本摘要、机器翻译、问答系统和代码生成等。通过降低KV缓存的内存占用和计算需求，FAEDKV能够提升LLM在资源受限环境下的部署能力，并加速推理过程，具有重要的实际应用价值。

📄 摘要（原文）

The efficacy of Large Language Models (LLMs) in long-context tasks is often hampered by the substantial memory footprint and computational demands of the Key-Value (KV) cache. Current compression strategies, including token eviction and learned projections, frequently lead to biased representations -- either by overemphasizing recent/high-attention tokens or by repeatedly degrading information from earlier context -- and may require costly model retraining. We present FAEDKV (Frequency-Adaptive Infinite-Window for KV cache), a novel, training-free KV cache compression framework that ensures unbiased information retention. FAEDKV operates by transforming the KV cache into the frequency domain using a proposed Infinite-Window Fourier Transform (IWDFT). This approach allows for the equalized contribution of all tokens to the compressed representation, effectively preserving both early and recent contextual information. A preliminary frequency ablation study identifies critical spectral components for layer-wise, targeted compression. Experiments on LongBench benchmark demonstrate FAEDKV's superiority over existing methods by up to 22\%. In addition, our method shows superior, position-agnostic retrieval accuracy on the Needle-In-A-Haystack task compared to compression based approaches.

FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理