LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models
作者: Dachuan Shi, Yonggan Fu, Xiangchi Yuan, Zhongzhi Yu, Haoran You, Sixu Li, Xin Dong, Jan Kautz, Pavlo Molchanov, Yingyan, Lin
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-07-14
备注: ICML 2025. Code: https://github.com/GATECH-EIC/LaCache
🔗 代码/项目: GITHUB
💡 一句话要点
LaCache:一种梯形KV缓存方法,用于高效的大语言模型长文本建模
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 长文本建模 KV缓存 推理优化 梯形缓存 迭代压缩 长程依赖
📋 核心要点
- 现有LLM在处理长文本时,KV缓存会随着序列长度增加而迅速膨胀,导致内存不足和推理效率下降。
- LaCache通过梯形结构的KV缓存,在固定存储预算下,同时在层内和层间存储KV对,扩展了长程依赖的捕获范围。
- LaCache采用迭代压缩机制,动态压缩旧缓存,为新token腾出空间,从而在有限缓存下实现更有效的连续生成,提升长程能力。
📝 摘要(中文)
大型语言模型(LLM)的最新进展激发了人们对需要强大长程能力的大量应用的兴趣,这对于处理广泛的输入上下文和持续生成扩展输出至关重要。随着序列长度的增加,LLM中键值(KV)对的数量也随之增加,从而造成了严重的效率瓶颈。在本文中,我们提出了一种新的KV缓存优化范例,称为LaCache,这是一种无需训练的方法,用于LLM的高效和准确的生成推理。LaCache使LLM能够同时解决长程建模中的两个关键挑战:强大的长程能力和连续生成而不会耗尽内存(OOM)。具体来说,LaCache集成了两项关键创新:(1)梯形KV缓存模式,该模式不仅按顺序(在每一层中从左到右)存储KV对,而且跨层(从浅到深)存储KV对,从而在固定的存储预算下为捕获长程依赖关系提供了扩展的跨度,从而提高了长程能力;(2)迭代压缩机制,该机制逐步压缩较旧的缓存,从而在固定缓存大小内为新token释放空间。这种基于token距离的动态压缩使在受限的缓存预算下能够进行更有效的连续生成。跨各种任务、基准和LLM模型的实验一致地验证了LaCache在增强LLM的长程能力方面的有效性。我们的代码可在https://github.com/GATECH-EIC/LaCache获得。
🔬 方法详解
问题定义:现有大型语言模型在处理长文本时,由于需要存储大量的Key-Value (KV) 对,导致KV缓存迅速增长,面临内存不足(Out-of-Memory, OOM)的问题,并且推理效率显著下降。传统的KV缓存方法难以在有限的资源下兼顾长程依赖建模和连续生成的需求。
核心思路:LaCache的核心思路是设计一种梯形结构的KV缓存,并结合迭代压缩机制,以在有限的存储预算下,最大化模型对长程依赖的捕获能力,并支持高效的连续生成。梯形结构允许KV信息不仅在同一层内传递,还在不同层之间传递,从而扩展了上下文信息的覆盖范围。迭代压缩机制则通过动态地压缩旧的、可能不太重要的KV对,为新的token腾出空间。
技术框架:LaCache的整体框架包含两个主要组成部分:梯形KV缓存结构和迭代压缩机制。梯形KV缓存结构在每一层都维护一个KV缓存,并且允许信息在层之间传递。迭代压缩机制则定期评估KV缓存中token的重要性,并根据token距离进行压缩,释放空间。整个过程无需重新训练模型。
关键创新:LaCache的关键创新在于其梯形KV缓存结构和迭代压缩机制的结合。梯形结构打破了传统KV缓存仅在同一层内存储信息的限制,通过层间的信息传递,增强了模型对长程依赖的建模能力。迭代压缩机制则解决了在有限缓存下进行连续生成的问题,避免了OOM错误。与现有方法相比,LaCache无需训练,即可显著提升LLM的长程能力和推理效率。
关键设计:梯形KV缓存的关键设计在于确定每一层需要存储的KV对的数量,以及层间信息传递的方式。迭代压缩机制的关键设计在于选择合适的压缩策略,例如基于token距离的压缩,以及确定压缩的频率和比例。具体的参数设置需要根据不同的模型和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LaCache在各种任务和基准测试中均能有效提升LLM的长程能力。例如,在某些长文本生成任务中,LaCache可以将模型的困惑度降低10%以上,同时显著减少内存占用。与基线方法相比,LaCache在相同的存储预算下,能够处理更长的上下文,并生成更高质量的文本。
🎯 应用场景
LaCache可广泛应用于需要处理长文本的各种场景,例如长文档摘要、机器翻译、代码生成、对话系统等。通过提升LLM的长程建模能力和推理效率,LaCache可以帮助开发者构建更智能、更高效的AI应用,并降低部署成本。未来,LaCache有望成为LLM长文本处理的标准优化技术。
📄 摘要(原文)
Recent advancements in Large Language Models (LLMs) have spurred interest in numerous applications requiring robust long-range capabilities, essential for processing extensive input contexts and continuously generating extended outputs. As sequence lengths increase, the number of Key-Value (KV) pairs in LLMs escalates, creating a significant efficiency bottleneck. In this paper, we propose a new KV cache optimization paradigm called LaCache, a training-free method for efficient and accurate generative inference of LLMs. LaCache enables LLMs to simultaneously address both of the critical challenges in long-range modeling: robust long-range capabilities and continuous generation without running out-of-memory (OOM). Specifically, LaCache integrates two key innovations: (1) a ladder-shaped KV cache pattern that stores KV pairs not only sequentially (left-to-right within each layer) but also across layers (from shallow to deep), providing an extended span for capturing long-range dependencies under a fixed storage budget, thereby boosting long-range capabilities; and (2) an iterative compaction mechanism that progressively compresses older caches, freeing up space for new tokens within a fixed cache size. This token distance-based dynamic compression enables more effective continuous generation under constrained cache budgets. Experiments across various tasks, benchmarks, and LLM models consistently validate LaCache's effectiveness in enhancing LLMs' long-range capabilities. Our code is available at https://github.com/GATECH-EIC/LaCache.