CTkvr: KV Cache Retrieval for Long-Context LLMs via Centroid then Token Indexing

作者: Kuan Lu, Shuhang Lin, Sai Wu, Yichen Yao, Junhan Yang, Huan Li, Wei Chu, Xu Yinghui, Yuan Qi, Gang Chen

分类: cs.CL

发布日期: 2025-12-17

💡 一句话要点

提出CTKVR：一种基于质心和Token索引的长文本LLM的KV缓存检索方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本LLM KV缓存检索 质心索引 Token索引 推理加速

📋 核心要点

现有动态KV选择方法在长文本LLM中面临准确性和效率的权衡，块级索引牺牲准确性，token级索引效率低。
CTKVR利用RoPE后相邻查询向量的相似性，提出质心-token两阶段检索，先用质心索引，再进行token级细化。
实验表明，CTKVR在保证准确性的前提下，显著提升了Llama-3-8B和Yi-9B在长文本场景下的推理吞吐量。

📝 摘要（中文）

大型语言模型（LLM）越来越多地应用于多轮对话等长文本场景。然而，长文本对推理效率提出了重大挑战，包括来自键值（KV）缓存的高内存开销以及由于过度内存访问而导致的延迟增加。现有的动态KV选择方法难以权衡：块级索引通过检索不相关的KV条目来降低准确性，而token级索引由于低效的检索机制而导致高延迟。本文提出了一种新颖的质心-token KV检索方案CTKVR，以解决这些限制。CTKVR利用了一个关键观察结果：位置相邻的查询向量在旋转位置嵌入（RoPE）之后表现出高度相似性，并共享其大部分top-k KV缓存条目。基于此，CTKVR采用两阶段检索策略：在预填充期间预先计算轻量级质心以进行质心粒度索引，然后进行token级细化以进行精确的KV检索。这种方法平衡了检索效率和准确性。为了进一步提高性能，我们实现了一个优化的系统，用于使用CPU-GPU协同执行来构建和搜索索引。实验表明，CTKVR在多个基准测试中实现了卓越的性能，且准确性降低不到1%。同时，在不同的GPU硬件上，CTKVR在96K上下文长度下，Llama-3-8B和Yi-9B的吞吐量分别提高了3倍和4倍。

🔬 方法详解

问题定义：论文旨在解决长文本LLM推理过程中，由于KV缓存过大和频繁访问导致的效率瓶颈问题。现有方法，如块级索引，会引入不相关的KV条目，降低准确性；而token级索引，则因检索机制效率低下而导致高延迟。

核心思路：论文的核心思路是利用RoPE后相邻位置的查询向量具有高度相似性这一特性，设计一种两阶段的检索策略。首先使用轻量级的质心进行粗粒度的索引，快速定位候选KV条目，然后进行token级别的精细检索，以提高准确性。这种方法旨在平衡检索效率和准确性。

技术框架：CTKVR包含两个主要阶段：质心索引构建阶段和KV检索阶段。在质心索引构建阶段，预先计算每个质心的KV表示。在KV检索阶段，首先使用查询向量检索最相关的质心，然后基于检索到的质心，进行token级别的KV检索。整个过程利用CPU-GPU协同执行来加速索引构建和搜索。

关键创新：CTKVR的关键创新在于其两阶段的检索策略，即先通过质心进行粗略筛选，再进行token级别的精细检索。这种方法避免了传统token级索引的全局搜索，提高了检索效率，同时通过token级别的细化保证了准确性。与现有方法相比，CTKVR在效率和准确性之间取得了更好的平衡。

关键设计：CTKVR的关键设计包括：1) 质心的选择和计算方法，需要保证质心能够代表其所包含的token的特征；2) 两阶段检索的阈值设置，需要在效率和准确性之间进行权衡；3) CPU-GPU协同执行的优化策略，需要充分利用CPU和GPU的计算能力，加速索引构建和搜索过程。

🖼️ 关键图片

📊 实验亮点

CTKVR在多个基准测试中表现出色，准确性降低不到1%。在Llama-3-8B和Yi-9B模型上，96K上下文长度下，CTKVR在不同GPU硬件上实现了3倍和4倍的吞吐量提升。这些结果表明CTKVR在长文本推理效率方面具有显著优势。

🎯 应用场景

CTKVR适用于需要处理长文本的LLM应用，例如多轮对话系统、长文档摘要、代码生成等。通过提高长文本推理的效率，可以降低部署成本，提升用户体验，并推动LLM在更广泛的领域应用。该研究对于优化LLM在资源受限设备上的部署也具有重要意义。

📄 摘要（原文）

Large language models (LLMs) are increasingly applied in long-context scenarios such as multi-turn conversations. However, long contexts pose significant challenges for inference efficiency, including high memory overhead from Key-Value (KV) cache and increased latency due to excessive memory accesses. Recent methods for dynamic KV selection struggle with trade-offs: block-level indexing degrades accuracy by retrieving irrelevant KV entries, while token-level indexing incurs high latency from inefficient retrieval mechanisms. In this paper, we propose CTKVR, a novel centroid-then-token KV retrieval scheme that addresses these limitations. CTKVR leverages a key observation: query vectors adjacent in position exhibit high similarity after Rotary Position Embedding (RoPE) and share most of their top-k KV cache entries. Based on this insight, CTKVR employs a two-stage retrieval strategy: lightweight centroids are precomputed during prefilling for centroid-grained indexing, followed by token-level refinement for precise KV retrieval. This approach balances retrieval efficiency and accuracy. To further enhance performance, we implement an optimized system for indexing construction and search using CPU-GPU co-execution. Experimentally, CTKVR achieves superior performance across multiple benchmarks with less than 1% accuracy degradation. Meanwhile, CTKVR delivers 3 times and 4 times throughput speedups on Llama-3-8B and Yi-9B at 96K context length across diverse GPU hardware.

CTkvr: KV Cache Retrieval for Long-Context LLMs via Centroid then Token Indexing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册