CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations
作者: Robin Karlsson, Go Suzui
分类: cs.RO, cs.AI
发布日期: 2026-05-08
备注: Extended Technical Report for Paper Accepted to IEEE RA-L
💡 一句话要点
提出CSR框架与ASR算法,通过大规模KV缓存复用实现具身智能的实时无限视界推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 大语言模型 KV缓存优化 实时推理 长上下文处理 机器人控制 异步计算
📋 核心要点
- 现有LLM在机器人应用中受限于长上下文处理带来的高TTFT延迟,导致无法满足实时控制需求。
- 提出CSR框架实现KV缓存的最优复用,并结合ASR算法将状态驱逐卸载至并行计算资源,消除延迟波动。
- 在120K token长上下文场景下,CSR将延迟降低26倍,并实现了具身AI任务中SOTA级别的上下文召回性能。
📝 摘要(中文)
将大规模语言模型(LLM)作为机器人持续认知引擎时,处理长状态历史所需的首次令牌时间(TTFT)延迟成为主要瓶颈。现有的RAG或滑动窗口方法往往在全局上下文完整性与重计算成本之间难以平衡。本文形式化了最小化延迟的任务结构,并从理论上证明了前缀稳定性、增量可扩展性及异步状态协调是实现实时性能的必要条件。基于此,作者提出了缓存状态表示(CSR)框架以实现最优KV缓存复用,并引入异步状态协调(ASR)算法,通过并行计算资源处理状态驱逐,消除延迟尖峰。实验表明,在120K token上下文及235B参数模型下,CSR较基线实现了26倍的延迟降低(从14.67秒降至0.56秒),并在具身AI基准测试中达到SOTA召回率,支持超过2Hz的高频实时决策。
🔬 方法详解
问题定义:论文旨在解决LLM作为机器人实时策略时,因处理长状态历史导致的TTFT延迟过高问题。现有方法如RAG会丢失全局上下文,而滑动窗口则面临频繁重计算的性能瓶颈。
核心思路:通过理论推导确立了实时推理的必要条件(前缀稳定性、增量可扩展性、异步协调),设计CSR框架确保KV缓存的持续复用,利用ASR算法将内存管理与推理过程解耦。
技术框架:CSR框架包含状态缓存管理模块,负责维护长序列的KV缓存;ASR算法作为并行组件,在后台执行状态驱逐与内存重组,确保主推理路径不受内存管理开销的影响。
关键创新:核心创新在于将状态管理从同步阻塞式转变为异步协调式,通过理论证明指导下的缓存策略,实现了在无限视界下对大规模上下文的实时访问,打破了长序列推理的延迟壁垒。
关键设计:采用了异步状态协调机制,将状态驱逐操作卸载至并行计算资源;通过前缀稳定性策略保证了KV缓存的有效性,确保在长周期运行中TTFT保持在有界范围内,避免了传统缓存溢出导致的性能尖峰。
🖼️ 关键图片
📊 实验亮点
实验在235B参数模型及120K token上下文下,将TTFT从14.67秒大幅缩减至0.56秒,延迟降低26倍。在具身AI基准测试中,召回率达到0.836(基线为0.459),并成功验证了在10个驱逐周期内保持TTFT平稳,支持超过2Hz的实时控制频率。
🎯 应用场景
该研究主要应用于具身智能与机器人领域,特别适用于需要长期记忆与高频实时决策的复杂任务,如家庭服务机器人、自动驾驶及工业自动化。其核心价值在于使超大规模模型能够作为实时控制器运行,显著提升机器人在长时程任务中的环境理解与任务执行能力。
📄 摘要(原文)
Deploying massive large language models (LLMs) as continuous cognitive engines for robotics is bottlenecked by the time-to-first-token (TTFT) latency required to process extensive state histories. Existing solutions like RAG or sliding windows compromise global context or incur prohibitive re-computation costs. We formalize the optimal task structure for minimizing latency and theoretically prove that prefix stability, incremental extensibility, and asynchronous state reconciliation are necessary conditions for real-time performance. Building on these proofs, we introduce the Cached State Representation (CSR) framework as the practical instantiation of these properties, ensuring optimal KV-cache reuse. To sustain these properties over infinite horizons, we further propose an Asynchronous State Reconciliation (ASR) algorithm that offloads state memory eviction to a parallel computational resource to eliminate latency spikes. On a physical robot wirelessly connected to an on-premise GPU server, CSR achieves a 26-fold latency reduction (14.67s to 0.56s) for 120K token contexts with a 235B parameter model compared to a standard baseline. On an embodied AI benchmark, we achieve SOTA recall (0.836 vs. 0.459) while maintaining RAG-level latency. ASR is validated to sustain bounded, spike-free TTFT over 10 eviction cycles in continuous real-world operation. Together, CSR and ASR enable massive LLMs to function as continuously operating, high-frequency (> 2 Hz) embodied policies.