KEEP: A KV-Cache-Centric Memory Management System for Efficient Embodied Planning

📄 arXiv: 2602.23592v1 📥 PDF

作者: Zebin Yang, Tong Xie, Baotong Lu, Shaoshan Liu, Bo Yu, Meng Li

分类: cs.RO, cs.AI, cs.SE

发布日期: 2026-02-27

备注: DAC 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出KEEP,一种面向具身规划的高效KV缓存中心化内存管理系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身规划 KV缓存 内存管理 大语言模型 交叉注意力

📋 核心要点

  1. 现有具身规划方法将记忆存储为原始文本,导致LLM提示过长,预填充延迟高,影响效率。
  2. KEEP通过KV缓存中心化的内存管理,结合静态-动态内存构建、多跳内存重计算和层平衡内存加载来提升效率。
  3. 实验表明,KEEP在ALFRED数据集上比文本方法加速2.68倍,比CacheBlend成功率提升4.13%,TTFT降低1.90倍。

📝 摘要(中文)

本文提出KEEP,一种面向高效具身规划的KV缓存中心化内存管理系统。现有的方法通常将记忆存储为原始文本,导致提示过长和预填充延迟高。虽然可以存储和重用KV缓存,但频繁的KV缓存更新大大降低了效率。KEEP具有三个关键创新:(1)一种静态-动态内存构建算法,通过混合粒度的内存组减少KV缓存的重新计算;(2)一种多跳内存重计算算法,动态识别不同内存组之间重要的交叉注意力并迭代地重建内存交互;(3)一种层平衡内存加载,消除了不同层之间不平衡的KV缓存加载和交叉注意力计算。在ALFRED数据集上的大量实验结果表明,与基于文本的内存方法相比,KEEP实现了2.68倍的加速,而精度损失可忽略不计。与KV重计算方法CacheBlend相比,KEEP的成功率提高了4.13%,首个token生成时间(TTFT)减少了1.90倍。代码已开源。

🔬 方法详解

问题定义:现有基于LLM的具身规划方法依赖于存储原始文本作为记忆,这导致了两个主要问题:一是LLM的输入prompt过长,增加了计算负担;二是预填充(prefill)阶段的延迟较高,影响了规划的实时性。即使使用KV缓存来存储记忆,频繁的KV缓存更新也抵消了效率提升。

核心思路:KEEP的核心思路是以KV缓存为中心来管理记忆,通过减少KV缓存的重新计算和优化内存加载,从而提高具身规划的效率。它利用了LLM中KV缓存的特性,避免了直接操作原始文本,从而降低了计算复杂度。

技术框架:KEEP包含三个主要模块:静态-动态内存构建、多跳内存重计算和层平衡内存加载。首先,静态-动态内存构建将记忆划分为不同粒度的组,减少KV缓存的重复计算。然后,多跳内存重计算动态识别不同记忆组之间的重要交叉注意力,并迭代地重建记忆交互。最后,层平衡内存加载确保不同层之间的KV缓存加载和交叉注意力计算的平衡。

关键创新:KEEP的关键创新在于其KV缓存中心化的内存管理方法。与传统的文本存储方法相比,KEEP直接操作KV缓存,避免了冗余的文本处理。此外,静态-动态内存构建和多跳内存重计算能够更有效地利用记忆信息,减少计算开销。层平衡内存加载解决了不同层之间计算负载不均衡的问题。

关键设计:静态-动态内存构建算法根据记忆的重要程度和更新频率,将记忆划分为静态和动态两部分。静态部分很少更新,可以长期缓存,而动态部分则根据需要进行更新。多跳内存重计算算法使用注意力机制来识别不同记忆组之间的关联,并根据关联强度来调整记忆的权重。层平衡内存加载通过调整不同层的KV缓存大小,确保各层计算负载均衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在ALFRED数据集上,KEEP相比于基于文本的内存方法实现了2.68倍的加速,且精度损失可忽略不计。与CacheBlend相比,KEEP的成功率提高了4.13%,首个token生成时间(TTFT)减少了1.90倍。这些结果验证了KEEP在提高具身规划效率方面的有效性。

🎯 应用场景

KEEP可以应用于各种需要长期记忆和复杂规划的具身智能任务,例如家庭机器人、自动驾驶、游戏AI等。通过提高规划效率,KEEP能够使这些应用更加实时和智能,从而提升用户体验和任务完成度。未来,该技术可以进一步扩展到其他需要高效内存管理的LLM应用中。

📄 摘要(原文)

Memory-augmented Large Language Models (LLMs) have demonstrated remarkable capability for complex and long-horizon embodied planning. By keeping track of past experiences and environmental states, memory enables LLMs to maintain a global view, thereby avoiding repetitive exploration. However, existing approaches often store the memory as raw text, leading to excessively long prompts and high prefill latency. While it is possible to store and reuse the KV caches, the efficiency benefits are greatly undermined due to frequent KV cache updates. In this paper, we propose KEEP, a KV-cache-centric memory management system for efficient embodied planning. KEEP features 3 key innovations: (1) a Static-Dynamic Memory Construction algorithm that reduces KV cache recomputation by mixed-granularity memory group; (2) a Multi-hop Memory Re-computation algorithm that dynamically identifies important cross-attention among different memory groups and reconstructs memory interactions iteratively; (3) a Layer-balanced Memory Loading that eliminates unbalanced KV cache loading and cross-attention computation across different layers. Extensive experimental results have demonstrated that KEEP achieves 2.68x speedup with negligible accuracy loss compared with text-based memory methods on ALFRED dataset. Compared with the KV re-computation method CacheBlend (EuroSys'25), KEEP shows 4.13% success rate improvement and 1.90x time-to-first-token (TTFT) reduction. Our code is available on https://github.com/PKU-SEC-Lab/KEEP_Embodied_Memory.