VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching

作者: Siyu Xu, Yunke Wang, Chenghao Xia, Dihao Zhu, Tao Huang, Chang Xu

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-02-04 (更新: 2025-10-21)

备注: Accepted to NeurIPS 2025

💡 一句话要点

VLA-Cache：通过自适应Token缓存加速视觉-语言-动作操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人控制 推理加速 Token缓存 自适应重用

📋 核心要点

VLA模型计算成本高昂，限制了其在实时机器人控制中的应用，需要高效的推理加速方法。
VLA-Cache通过缓存和重用静态视觉token，并选择性地重新计算任务相关的token，减少冗余计算。
实验表明，VLA-Cache在加速推理的同时，保持了任务成功率，并在真实机器人系统上验证了有效性。

📝 摘要（中文）

视觉-语言-动作（VLA）模型展现了强大的多模态推理能力，能够以端到端的方式从视觉感知和语言指令直接生成动作。然而，其巨大的计算成本对需要快速决策的实时机器人控制构成了挑战。本文提出了VLA-Cache，一种无需训练的推理加速方法，通过自适应地缓存和重用跨帧的静态视觉token来减少计算开销。VLA-Cache利用机器人操作中的时间连续性，识别相邻帧之间变化最小的token，并重用其缓存的键-值表示，从而避免冗余计算。此外，为了保持动作精度，VLA-Cache选择性地重新计算对环境敏感的任务相关token，确保关键视觉信息的保真度。为了进一步优化效率，我们引入了一种层自适应token重用策略，该策略根据解码器层之间的注意力集中动态调整重用率，优先重新计算关键token。在两个模拟平台（LIBERO和SIMPLER）以及一个真实机器人系统上的大量实验表明，VLA-Cache在CUDA延迟方面实现了高达1.7倍的加速，控制频率提高了15%，而任务成功率的损失可忽略不计。代码和视频可在我们的项目页面找到：https://vla-cache.github.io。

🔬 方法详解

问题定义：VLA模型在机器人控制中面临计算量大的问题，难以满足实时性要求。现有方法通常需要大量的计算资源，或者难以在保证精度的前提下进行有效加速。因此，如何在降低计算成本的同时，保持VLA模型在机器人操作任务中的性能是一个关键挑战。

核心思路：VLA-Cache的核心思路是利用机器人操作场景中视觉信息的时序连续性，即相邻帧之间图像内容通常变化不大。通过缓存和重用未发生显著变化的视觉token的表示，避免重复计算，从而加速推理过程。同时，为了保证控制精度，需要识别并重新计算对环境变化敏感的关键token。

技术框架：VLA-Cache主要包含以下几个模块：1) Token变化检测：识别相邻帧之间发生显著变化的视觉token。2) Token缓存：存储静态视觉token的键-值表示。3) 自适应重用：根据token变化情况，选择性地重用缓存的表示或重新计算。4) 层自适应调整：根据解码器层之间的注意力集中程度，动态调整token的重用比例。整体流程是，对于每一帧图像，首先进行token变化检测，然后根据检测结果，从缓存中获取静态token的表示，并重新计算变化较大的token的表示，最后将这些表示输入到VLA模型中进行推理。

关键创新：VLA-Cache的关键创新在于其自适应的token缓存和重用机制。与传统的静态缓存方法不同，VLA-Cache能够根据token的变化情况动态地调整重用策略，从而在加速推理的同时，保证控制精度。此外，层自适应调整策略进一步优化了token的重用比例，提高了效率。

关键设计：Token变化检测可以通过计算相邻帧之间token特征的差异来实现。缓存可以使用键-值存储结构，其中键是token的位置信息，值是token的表示。自适应重用策略可以基于一个阈值，当token特征的差异超过该阈值时，则重新计算该token的表示。层自适应调整策略可以根据解码器层之间的注意力权重来确定每个层中需要重新计算的token比例。具体的参数设置需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

VLA-Cache在LIBERO和SIMPLER两个模拟平台以及真实机器人系统上进行了验证。实验结果表明，VLA-Cache在CUDA延迟方面实现了高达1.7倍的加速，控制频率提高了15%，而任务成功率的损失可忽略不计。这些结果表明，VLA-Cache是一种有效的VLA模型推理加速方法，能够在保证性能的前提下显著降低计算成本。

🎯 应用场景

VLA-Cache具有广泛的应用前景，可应用于各种需要实时机器人控制的场景，例如自动驾驶、工业自动化、家庭服务机器人等。通过降低VLA模型的计算成本，VLA-Cache使得这些模型能够在资源受限的平台上运行，从而推动了机器人技术的普及和发展。未来，该技术有望与其他加速方法相结合，进一步提高机器人控制的效率和智能化水平。

📄 摘要（原文）

Vision-Language-Action (VLA) models have demonstrated strong multi-modal reasoning capabilities, enabling direct action generation from visual perception and language instructions in an end-to-end manner. However, their substantial computational cost poses a challenge for real-time robotic control, where rapid decision-making is essential. This paper introduces VLA-Cache, a training-free inference acceleration method that reduces computational overhead by adaptively caching and reusing static visual tokens across frames. Exploiting the temporal continuity in robotic manipulation, VLA-Cache identifies minimally changed tokens between adjacent frames and reuses their cached key-value representations, thereby circumventing redundant computations. Additionally, to maintain action precision, VLA-Cache selectively re-computes task-relevant tokens that are environmentally sensitive, ensuring the fidelity of critical visual information. To further optimize efficiency, we introduce a layer adaptive token reusing strategy that dynamically adjusts the reuse ratio based on attention concentration across decoder layers, prioritizing critical tokens for recomputation. Extensive experiments on two simulation platforms (LIBERO and SIMPLER) and a real-world robotic system demonstrate that VLA-Cache achieves up to 1.7x speedup in CUDA latency and a 15% increase in control frequency, with negligible loss on task success rate. The code and videos can be found at our project page: https://vla-cache.github.io.

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理