CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving

作者: Dong Liu, Yanxuan Yu

分类: cs.AI

发布日期: 2025-12-11

备注: Accepted to FPGA'26 Oral

🔗 代码/项目: GITHUB

💡 一句话要点

提出CXL-SpecKV，利用CXL互连和FPGA加速实现LLM推理中KV缓存的卸载与加速。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM推理 KV缓存 CXL互连 FPGA加速 内存解耦 推测执行 数据中心

📋 核心要点

LLM推理过程中KV缓存占用大量GPU内存，限制了批处理大小和系统吞吐量，成为部署的瓶颈。
CXL-SpecKV通过CXL互连将KV缓存卸载到FPGA远程内存，并结合推测预取和FPGA加速的压缩/解压缩来优化性能。
实验表明，CXL-SpecKV相比GPU方案，吞吐量提升高达3.2倍，内存成本降低2.8倍，同时保持了模型精度。

📝 摘要（中文）

大型语言模型（LLMs）彻底改变了自然语言处理任务，但由于键值（KV）缓存的海量内存需求，它们在数据中心环境中的部署面临着重大挑战。在自回归解码过程中，KV缓存消耗大量的GPU内存，限制了批处理大小和整体系统吞吐量。为了应对这些挑战，我们提出了 extbf{CXL-SpecKV}，一种新颖的解耦KV缓存架构，它利用Compute Express Link（CXL）互连和FPGA加速器来实现高效的推测执行和内存解耦。我们的方法引入了三个关键创新：（i）一个基于CXL的内存解耦框架，以低延迟将KV缓存卸载到远程FPGA内存；（ii）一种推测性KV缓存预取机制，用于预测和预加载未来token的缓存条目；（iii）一个FPGA加速的KV缓存压缩和解压缩引擎，可将内存带宽需求降低高达4倍。在最先进的LLM模型上进行评估时，CXL-SpecKV实现了高达3.2倍于仅使用GPU的基线的吞吐量，同时降低了2.8倍的内存成本并保持了准确性。我们的系统表明，智能内存解耦与推测执行相结合可以有效地解决大规模LLM服务中的内存墙挑战。我们的代码实现在https://github.com/FastLM/CXL-SpecKV上开源。

🔬 方法详解

问题定义：LLM推理过程中，KV缓存的内存需求巨大，特别是对于长序列和大型模型。传统的GPU内存容量有限，无法容纳所有KV缓存，导致频繁的内存交换，严重影响推理速度和吞吐量。现有方法难以在成本、性能和精度之间取得平衡。

核心思路：CXL-SpecKV的核心思路是将KV缓存从GPU内存卸载到通过CXL互连的FPGA远程内存中。利用CXL的低延迟和高带宽特性，实现快速的KV缓存访问。此外，通过推测预取机制提前加载未来token的缓存条目，减少访问延迟。最后，使用FPGA加速的压缩和解压缩引擎，降低内存带宽需求。

技术框架：CXL-SpecKV包含以下主要模块：1) CXL互连模块，负责GPU和FPGA之间的通信；2) FPGA远程内存模块，用于存储卸载的KV缓存；3) 推测预取模块，预测并预加载未来token的缓存条目；4) FPGA加速的压缩/解压缩引擎，用于降低内存带宽需求。整个流程如下：GPU发出KV缓存请求，如果缓存未命中，则通过CXL互连从FPGA远程内存获取，并进行解压缩（如果已压缩）。同时，推测预取模块预测未来token的缓存条目，并提前加载到GPU缓存中。

关键创新：CXL-SpecKV的关键创新在于将CXL互连、FPGA加速和推测预取相结合，实现高效的KV缓存卸载和加速。与现有方法的本质区别在于，CXL-SpecKV利用CXL互连的低延迟和高带宽特性，将KV缓存卸载到远程内存，从而突破了GPU内存容量的限制。同时，推测预取和FPGA加速的压缩/解压缩进一步优化了性能。

关键设计：推测预取模块使用基于历史访问模式的预测算法，预测未来token的缓存条目。FPGA加速的压缩/解压缩引擎使用高效的压缩算法，例如LZ4或Zstd，并在FPGA上进行硬件加速。CXL互连的配置需要根据具体的硬件平台进行调整，以实现最佳的延迟和带宽。

🖼️ 关键图片

📊 实验亮点

CXL-SpecKV在多个LLM模型上进行了评估，实验结果表明，相比于仅使用GPU的基线方案，CXL-SpecKV实现了高达3.2倍的吞吐量提升，同时降低了2.8倍的内存成本，并且保持了模型的准确性。这些结果验证了CXL-SpecKV在LLM推理加速方面的有效性。

🎯 应用场景

CXL-SpecKV适用于需要大规模LLM推理的数据中心环境，例如对话机器人、文本生成、机器翻译等。该研究成果可以降低LLM部署的硬件成本，提高推理吞吐量，并支持更大规模的模型和更长的序列长度。未来，该技术可以推广到其他需要大量内存访问的应用场景，例如图神经网络和推荐系统。

📄 摘要（原文）

Large Language Models (LLMs) have revolutionized natural language processing tasks, but their deployment in datacenter environments faces significant challenges due to the massive memory requirements of key-value (KV) caches. During the autoregressive decoding process, KV caches consume substantial GPU memory, limiting batch sizes and overall system throughput. To address these challenges, we propose \textbf{CXL-SpecKV}, a novel disaggregated KV-cache architecture that leverages Compute Express Link (CXL) interconnects and FPGA accelerators to enable efficient speculative execution and memory disaggregation. Our approach introduces three key innovations: (i) a CXL-based memory disaggregation framework that offloads KV-caches to remote FPGA memory with low latency, (ii) a speculative KV-cache prefetching mechanism that predicts and preloads future tokens' cache entries, and (iii) an FPGA-accelerated KV-cache compression and decompression engine that reduces memory bandwidth requirements by up to 4$\times$. When evaluated on state-of-the-art LLM models, CXL-SpecKV achieves up to 3.2$\times$ higher throughput compared to GPU-only baselines, while reducing memory costs by 2.8$\times$ and maintaining accuracy. Our system demonstrates that intelligent memory disaggregation combined with speculative execution can effectively address the memory wall challenge in large-scale LLM serving. Our code implementation has been open-sourced at https://github.com/FastLM/CXL-SpecKV.

CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理