AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents

📄 arXiv: 2604.24039v1 📥 PDF

作者: Hojoon Kim, Yuheng Wu, Thierry Tambe

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-27

备注: Accepted at MLSys 2026

🔗 代码/项目: GITHUB


💡 一句话要点

AgenticCache:面向具身AI代理的缓存驱动异步规划框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身AI 缓存机制 异步规划 大型语言模型 计划重用

📋 核心要点

  1. 现有具身AI代理依赖LLM进行规划,但频繁调用LLM导致高延迟和高成本。
  2. AgenticCache通过重用缓存的计划来避免频繁调用LLM,利用了具身任务的计划局部性。
  3. 实验表明,AgenticCache显著提高了任务成功率,降低了模拟延迟和token使用量。

📝 摘要(中文)

具身AI代理越来越多地依赖于大型语言模型(LLMs)进行规划,但每一步都调用LLM会带来严重的延迟和成本。本文表明,具身任务表现出很强的计划局部性,即下一个计划很大程度上可以从当前计划预测。基于此,我们提出了AgenticCache,一个规划框架,它重用缓存的计划以避免每一步都调用LLM。在AgenticCache中,每个代理查询一个频繁计划转换的运行时缓存,而后台缓存更新器异步调用LLM来验证和细化缓存条目。在四个多代理具身基准测试中,AgenticCache在12种配置(4个基准测试x 3个模型)中平均提高了22%的任务成功率,降低了65%的模拟延迟,并降低了50%的token使用量。因此,基于缓存的计划重用为低延迟、低成本的具身代理提供了一条可行的途径。

🔬 方法详解

问题定义:现有具身AI代理在执行任务时,通常需要每一步都调用大型语言模型(LLM)进行规划。这种方式虽然能够保证规划的质量,但由于LLM推理的延迟较高,导致整体任务执行效率低下,并且会产生较高的token使用成本。因此,如何降低对LLM的依赖,同时保证任务的成功率,是本文要解决的核心问题。

核心思路:本文的核心思路是利用具身任务的计划局部性。作者观察到,在许多具身任务中,代理的下一步计划往往与当前计划高度相关。因此,可以通过缓存频繁出现的计划转换,并在后续的任务中重用这些缓存的计划,从而避免频繁调用LLM。这种基于缓存的计划重用方法可以显著降低延迟和成本。

技术框架:AgenticCache框架包含两个主要组件:运行时缓存和后台缓存更新器。运行时缓存存储了频繁出现的计划转换,代理在执行任务时,首先查询运行时缓存,如果找到匹配的计划转换,则直接使用缓存的计划。如果未找到匹配的计划转换,则调用LLM进行规划,并将新的计划转换添加到缓存中。后台缓存更新器异步调用LLM来验证和细化缓存条目,保证缓存的质量。

关键创新:AgenticCache的关键创新在于提出了基于缓存的异步规划方法。与传统的每步调用LLM的规划方法相比,AgenticCache通过重用缓存的计划,显著降低了延迟和成本。同时,异步缓存更新机制保证了缓存的质量,避免了缓存过期或不准确的问题。

关键设计:AgenticCache的关键设计包括缓存的存储结构、缓存的查询算法、缓存的更新策略等。缓存可以使用键值对存储,其中键表示当前状态和目标,值表示对应的计划。缓存的查询算法可以使用哈希表或树结构,以提高查询效率。缓存的更新策略可以使用LRU(Least Recently Used)或LFU(Least Frequently Used)等算法,以保证缓存中存储的是最常用的计划转换。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AgenticCache在四个多代理具身基准测试中进行了评估,结果表明,AgenticCache在12种配置(4个基准测试x 3个模型)中平均提高了22%的任务成功率,降低了65%的模拟延迟,并降低了50%的token使用量。这些结果表明,AgenticCache是一种有效的低延迟、低成本的具身AI代理规划框架。

🎯 应用场景

AgenticCache具有广泛的应用前景,可应用于机器人导航、家庭服务机器人、自动驾驶等领域。通过降低具身AI代理的延迟和成本,AgenticCache可以促进这些技术的普及和应用,例如,可以用于开发更智能、更高效的家庭服务机器人,帮助人们完成各种日常任务。

📄 摘要(原文)

Embodied AI agents increasingly rely on large language models (LLMs) for planning, yet per-step LLM calls impose severe latency and cost. In this paper, we show that embodied tasks exhibit strong plan locality, where the next plan is largely predictable from the current one. Building on this, we introduce AgenticCache, a planning framework that reuses cached plans to avoid per-step LLM calls. In AgenticCache, each agent queries a runtime cache of frequent plan transitions, while a background Cache Updater asynchronously calls the LLM to validate and refine cached entries. Across four multi-agent embodied benchmarks, AgenticCache improves task success rate by 22% on average across 12 configurations (4 benchmarks x 3 models), reduces simulation latency by 65%, and lowers token usage by 50%. Cache-based plan reuse thus offers a practical path to low-latency, low-cost embodied agents. Code is available at https://github.com/hojoonleokim/MLSys26_AgenticCache.