AdaptCache: KV Cache Native Storage Hierarchy for Low-Delay and High-Quality Language Model Serving
作者: Shaoting Feng, Hanchen Li, Kuntai Du, Zhuohan Gu, Yuhan Liu, Jiayi Yao, Siddhant Ray, Samuel Shen, Yihua Cheng, Ganesh Ananthanarayanan, Junchen Jiang
分类: cs.OS, cs.AI, cs.LG
发布日期: 2025-08-28 (更新: 2026-01-15)
备注: Accepted at SOSP 2025 - The International Workshop on Big Memory (BigMem)
💡 一句话要点
AdaptCache:面向低延迟和高质量语言模型服务的KV缓存原生存储分层方案
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: KV缓存 语言模型服务 有损压缩 DRAM SSD 低延迟 高质量 自适应压缩
📋 核心要点
- 现有LLM服务系统在处理重复上下文时,由于SSD加载速度慢,导致KV缓存加载延迟高。
- AdaptCache通过有损压缩,优化KV缓存的压缩算法、压缩率和设备放置,提升DRAM命中率。
- 实验表明,AdaptCache在保证质量的前提下,显著降低了延迟,或在相同延迟下提升了生成质量。
📝 摘要(中文)
大型语言模型(LLM)应用通常会重复使用先前处理的上下文,例如聊天记录和文档,这导致了大量的冗余计算。现有的LLM服务系统通过存储已处理上下文的KV缓存,并在新请求重用上下文时加载相应的KV缓存来解决这种冗余计算。此外,随着这些LLM应用规模的扩大,KV缓存的总大小变得非常大,需要DRAM和SSD进行完整存储。然而,先前将KV缓存存储在DRAM和SSD中的工作存在加载延迟高的问题,因为大多数KV缓存命中来自SSD,而SSD加载速度较慢。为了提高DRAM上的KV缓存命中率,我们认为有损KV缓存压缩是一种有前途的方法。我们设计了一种有损压缩系统,该系统为每个KV缓存条目决定压缩算法、压缩率和设备放置,以最大限度地提高DRAM命中率并最大限度地减少加载延迟,而不会显着降低生成质量。与跨三个任务的各种静态压缩基线相比,我们的系统AdaptCache在相同质量下实现了1.43--2.4倍的延迟节省,并在相同延迟下实现了6--55%的质量提升。
🔬 方法详解
问题定义:论文旨在解决大型语言模型服务中,由于上下文重用导致的冗余计算问题。现有方法依赖于将KV缓存存储在DRAM和SSD中,但由于SSD的访问速度较慢,导致KV缓存的加载延迟较高,影响了LLM服务的性能。
核心思路:论文的核心思路是通过有损压缩来提高DRAM的KV缓存命中率,从而减少对SSD的访问,降低加载延迟。通过智能地选择压缩算法、压缩率和设备放置策略,在保证生成质量的前提下,最大限度地利用DRAM的快速访问特性。
技术框架:AdaptCache系统包含以下主要模块:1) KV缓存存储模块,用于存储和管理KV缓存;2) 压缩算法选择模块,根据KV缓存的特性选择合适的压缩算法;3) 压缩率控制模块,动态调整压缩率以平衡存储空间和生成质量;4) 设备放置模块,决定KV缓存存储在DRAM还是SSD中;5) 加载模块,根据请求加载相应的KV缓存。
关键创新:AdaptCache的关键创新在于其自适应的压缩和存储策略。它不是采用静态的压缩方法,而是根据KV缓存的内容和访问模式,动态地选择压缩算法、压缩率和存储设备。这种自适应性使得系统能够在保证生成质量的前提下,最大限度地提高DRAM的利用率,降低加载延迟。
关键设计:AdaptCache的关键设计包括:1) 针对不同类型的KV缓存,设计了多种有损压缩算法,例如量化、剪枝等;2) 引入了质量评估指标,用于评估压缩对生成质量的影响;3) 设计了基于强化学习的设备放置策略,根据KV缓存的访问频率和大小,动态地调整其存储位置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AdaptCache在三个不同的任务上,与静态压缩基线相比,在相同质量下实现了1.43--2.4倍的延迟节省,或者在相同延迟下实现了6--55%的质量提升。这些结果验证了AdaptCache的有效性,表明其能够显著提高LLM服务的性能。
🎯 应用场景
AdaptCache可应用于各种需要低延迟和高质量LLM服务的场景,例如在线聊天机器人、文档问答系统、代码生成工具等。通过降低延迟和提高生成质量,AdaptCache可以提升用户体验,并为LLM的广泛应用提供更高效的基础设施。
📄 摘要(原文)
Large language model (LLM) applications often reuse previously processed context, such as chat history and documents, which introduces significant redundant computation. Existing LLM serving systems address such redundant computation by storing the KV caches of processed context and loading the corresponding KV cache when a new request reuses the context. Further, as these LLM applications scale, the total size of KV caches becomes excessively large and requires both DRAM and SSD for full storage. However, prior work that stores KV caches in DRAM and SSD suffers from high loading delays, as most KV cache hits come from SSD, which is slow to load. To increase the KV cache hit rate on DRAM, we identify lossy KV cache compression as a promising approach. We design a lossy compression system that decides the compression algorithm, compression rate and device placement for each KV cache entry to maximise DRAM hits and minimise loading delay without significantly degrading generation quality. Compared to various static compression baselines across three tasks, our system AdaptCache achieves 1.43--2.4 x delay savings at the same quality and 6--55% quality improvements at the same delay.