CT-VAM: A Cerebello-Thalamic-Inspired Vision-Action Model for Efficient Visuomotor Control

📄 arXiv: 2606.09572v1 📥 PDF

作者: Jiacheng Li, Yize Guo, Jiabin Guo, Qingchen Liu, Jiahu Qin

分类: cs.RO, cs.AI

发布日期: 2026-06-08


💡 一句话要点

提出CT-VAM以解决高频低级执行中的任务意图处理问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-动作模型 小脑-丘脑启发 高频控制 任务条件 异构输入融合 机器人操作 云-边缘架构 实时推理

📋 核心要点

  1. 现有视觉-语言-动作模型在高频低级执行中对任务意图的处理效率不足,导致执行延迟和资源浪费。
  2. CT-VAM通过引入受小脑-丘脑启发的结构,设计了紧凑的本地执行策略,能够高效处理视觉和任务信息。
  3. CT-VAM在LIBERO任务中以68M参数实现了与更大模型相当的成功率,并显著降低了推理延迟,支持高频控制。

📝 摘要(中文)

视觉-语言-动作模型在机器人操作中展现出强大的潜力,但现有方法主要依赖原始语言来指定任务意图,而非在高频低级执行中反复处理。为此,本文提出了一种受小脑-丘脑启发的视觉-动作模型(CT-VAM),旨在实现高效的任务条件下的视觉运动控制。CT-VAM作为紧凑的本地执行策略,从双视角视觉观测、自我感知和轻量级任务条件中预测动作片段,支持在云-边缘架构中高效运行。CT-VAM引入了TARS(丘脑动作路由流),有效融合异构输入,防止密集的感知信息淹没任务相关条件。CT-VAM仅用68M参数便能在LIBERO上取得与更大VLA模型相当的成功率,同时降低推理延迟,支持高频控制并在资源受限的机器人平台上实现稳健部署。

🔬 方法详解

问题定义:本文旨在解决现有视觉-语言-动作模型在高频低级执行中对任务意图处理效率低下的问题,导致执行延迟和资源浪费。

核心思路:CT-VAM通过引入小脑-丘脑启发的结构,设计了一种紧凑的本地执行策略,能够从双视角视觉观测、自我感知和轻量级任务条件中高效预测动作片段。

技术框架:CT-VAM的整体架构包括三个主要模块:视觉输入模块、任务条件模块和动作预测模块。视觉输入模块处理双视角图像,自我感知模块提供状态信息,任务条件模块则提供轻量级的任务信息。

关键创新:CT-VAM的核心创新在于引入TARS(丘脑动作路由流),该模块能够独立路由动作、视觉和任务流,有效防止密集感知信息淹没任务相关条件,从而提升了模型的执行效率。

关键设计:CT-VAM仅使用68M参数,采用流分离的条件注意力解码器,设计了适应性损失函数以优化不同输入流的融合效果,确保高频控制的实时性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CT-VAM在LIBERO任务中以68M参数实现了与更大视觉-语言-动作模型相当的成功率,且推理延迟显著降低,支持高频控制,展示了在资源受限环境中的稳健性和高效性。

🎯 应用场景

CT-VAM的设计使其在资源受限的机器人平台上具有广泛的应用潜力,尤其适用于需要高频控制的任务,如自动化制造、无人驾驶和服务机器人等领域。其云-边缘架构的优势也为未来的智能机器人系统提供了新的思路,能够在保持高效性的同时实现复杂的语义推理。

📄 摘要(原文)

Vision-language-action models have shown strong promise for robot manipulation, yet raw language is primarily needed to specify task intent rather than to be repeatedly processed during high-frequency low-level execution. Motivated by this separation, we propose a cerebello-thalamic-inspired vision-action model (CT-VAM) for efficient task-conditioned visuomotor control. CT-VAM acts as a compact local execution policy that predicts action chunks from dualview visual observations, proprioception, and a lightweight task condition, potentially enabling a practical cloud-edge paradigm in which high-level semantic reasoning can be handled by large models while fast closed-loop control runs on local hardware. To fuse heterogeneous inputs effectively, CT-VAM introduces TARS (Thalamic Action Routing Stream), a stream-separated conditional attention decoder that independently routes action, visual and task streams, preventing dense sensory tokens from overwhelming compact task-relevant conditions. With only 68M parameters, CT-VAM achieves LIBERO success rates competitive with substantially larger VLA models, while reducing inference latency. Together with flow-consistent inpainting for asynchronous chunk execution, CT-VAM supports high-frequency control and demonstrates robust realworld deployment on resource-constrained robotic platforms.