DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

📄 arXiv: 2603.10469v1 📥 PDF

作者: Yuquan Li, Lianjie Ma, Han Ding, Lijun Zhu

分类: cs.RO

发布日期: 2026-03-11

备注: 8 pages, 6 figures


💡 一句话要点

提出DepthCache,利用深度信息加速VLA模型推理,提升机器人操作效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 模型推理加速 深度信息 Token合并

📋 核心要点

  1. VLA模型推理延迟高,源于大型语言模型骨干网络需要处理大量的视觉token,影响机器人操作的实时性。
  2. DepthCache利用深度信息作为先验,对视觉token进行压缩,在保留关键空间信息的同时,减少计算量。
  3. 实验表明,DepthCache在保证任务成功率的前提下,显著提升了VLA模型的推理速度,并在真实机器人实验中验证了其有效性。

📝 摘要(中文)

本文提出DepthCache,一个免训练框架,旨在利用深度信息作为结构先验来压缩视觉token,从而加速视觉-语言-动作(VLA)模型的推理。该方法将观测划分为基于深度的区域,并应用空间差异化的合并比例,保留近场工作空间的同时压缩远场背景。为了利用时间冗余,DepthCache在连续帧上分配合并过程,确保一致的表示并减少每步计算。运动自适应流程进一步优化了基于末端执行器动力学的辅助视图压缩。该框架无需模型修改,可泛化到不同的VLA架构。在LIBERO基准测试中,DepthCache在三种VLA模型(pi_0.5、OpenVLA、GR00T)上实现了高达1.28倍的推理加速,而平均成功率仅下降不到1%,相比之下,剪枝和合并基线在相当的压缩率下导致4-24%的下降。在物理机械臂上的真实世界实验表明,DepthCache能够在延迟敏感的场景中实现更快的任务吞吐量和更灵敏的闭环控制。

🔬 方法详解

问题定义:VLA模型在机器人操作中面临推理延迟高的挑战,这是由于视觉输入被分割成大量的token,需要大型语言模型进行处理。现有的token剪枝或合并方法通常采用均匀策略,忽略了空间结构信息,导致对机器人控制至关重要的空间推理能力下降。

核心思路:DepthCache的核心在于利用深度信息作为结构先验,对视觉token进行差异化压缩。其基本思想是:近场物体(通常是机器人需要操作的对象)包含更重要的信息,应该保留更多的token;而远场背景信息相对不重要,可以进行更积极的压缩。通过这种方式,可以在减少计算量的同时,最大限度地保留关键的空间信息。

技术框架:DepthCache的整体框架包括以下几个主要阶段:1) 深度信息获取:通过深度相机或其他传感器获取场景的深度信息。2) 区域划分:基于深度信息将图像划分为不同的区域,例如近场区域和远场区域。3) 差异化合并:根据区域的重要性,应用不同的token合并比例。近场区域的token合并比例较低,以保留更多细节;远场区域的token合并比例较高,以减少计算量。4) 时间一致性:为了避免连续帧之间的token合并结果不一致,DepthCache在连续帧上分配合并过程,确保表示的平滑过渡。5) 运动自适应:根据末端执行器的运动状态,动态调整辅助视图的压缩策略。

关键创新:DepthCache的关键创新在于:1) 利用深度信息作为结构先验,实现视觉token的差异化压缩。2) 提出了一种免训练的token合并方法,无需对VLA模型进行任何修改,即可直接应用。3) 引入时间一致性机制,保证连续帧之间表示的平滑过渡。4) 采用运动自适应策略,进一步优化辅助视图的压缩。

关键设计:DepthCache的关键设计包括:1) 深度区域划分策略:如何根据深度信息将图像划分为不同的区域,需要根据具体的应用场景进行调整。2) Token合并比例的设置:近场和远场区域的token合并比例需要根据实验结果进行优化,以在计算量和性能之间取得平衡。3) 时间一致性机制的实现:需要在连续帧之间建立token对应关系,并采用平滑滤波等方法来保证表示的平滑过渡。4) 运动自适应策略的实现:需要根据末端执行器的运动状态,动态调整辅助视图的压缩比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DepthCache在LIBERO基准测试中,对pi_0.5、OpenVLA和GR00T三种VLA模型实现了高达1.28倍的推理加速,而平均成功率仅下降不到1%。相比之下,剪枝和合并基线在相当的压缩率下导致4-24%的成功率下降。在真实机器人实验中,DepthCache能够实现更快的任务吞吐量和更灵敏的闭环控制。

🎯 应用场景

DepthCache可广泛应用于需要实时机器人操作的场景,例如工业自动化、家庭服务机器人、医疗机器人等。通过加速VLA模型的推理速度,可以提高机器人的响应速度和操作效率,使其能够更好地适应动态环境,完成复杂的任务。该研究还有助于推动VLA模型在资源受限平台上的部署,例如移动机器人和嵌入式系统。

📄 摘要(原文)

Vision-Language-Action (VLA) models enable generalist robotic manipulation but suffer from high inference latency. This bottleneck stems from the massive number of visual tokens processed by large language backbones. Existing methods either prune or merge tokens uniformly, degrading the spatial reasoning essential for robotic control. We present DepthCache, a training-free framework that leverages depth as a structural prior for visual token compression. It partitions observations into depth-based regions and applies spatially differentiated merge ratios, preserving the near-field workspace while compressing the distant background. To exploit temporal redundancy, DepthCache distributes the merging process across consecutive frames, ensuring consistent representations while reducing per-step computation. A motion-adaptive pipeline further optimizes auxiliary view compression based on end-effector dynamics. The framework requires no model modification, generalizing across diverse VLA architectures. On the LIBERO benchmark, DepthCache achieves up to 1.28x inference speedup with less than 1% average success rate degradation across three VLA models (pi_0.5, OpenVLA, GR00T), whereas pruning and merging baselines incur 4--24% degradation at comparable compression. Real-world experiments on a physical manipulator demonstrate that DepthCache enables faster task throughput and more responsive closed-loop control in latency-sensitive scenarios.