CT-VAM: A Cerebello-Thalamic-Inspired Vision-Action Model for Efficient Visuomotor Control

作者: Jiacheng Li, Yize Guo, Jiabin Guo, Qingchen Liu, Jiahu Qin

分类: cs.RO, cs.AI

发布日期: 2026-06-08

💡 一句话要点

提出CT-VAM以解决高频低级执行中的任务意图处理问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-动作模型 小脑-丘脑启发 高频控制 任务条件 异构输入融合 机器人操作 云-边缘架构 实时推理

📋 核心要点

现有视觉-语言-动作模型在高频低级执行中对任务意图的处理效率不足，导致执行延迟和资源浪费。
CT-VAM通过引入受小脑-丘脑启发的结构，设计了紧凑的本地执行策略，能够高效处理视觉和任务信息。
CT-VAM在LIBERO任务中以68M参数实现了与更大模型相当的成功率，并显著降低了推理延迟，支持高频控制。

📝 摘要（中文）

视觉-语言-动作模型在机器人操作中展现出强大的潜力，但现有方法主要依赖原始语言来指定任务意图，而非在高频低级执行中反复处理。为此，本文提出了一种受小脑-丘脑启发的视觉-动作模型（CT-VAM），旨在实现高效的任务条件下的视觉运动控制。CT-VAM作为紧凑的本地执行策略，从双视角视觉观测、自我感知和轻量级任务条件中预测动作片段，支持在云-边缘架构中高效运行。CT-VAM引入了TARS（丘脑动作路由流），有效融合异构输入，防止密集的感知信息淹没任务相关条件。CT-VAM仅用68M参数便能在LIBERO上取得与更大VLA模型相当的成功率，同时降低推理延迟，支持高频控制并在资源受限的机器人平台上实现稳健部署。

🔬 方法详解

问题定义：本文旨在解决现有视觉-语言-动作模型在高频低级执行中对任务意图处理效率低下的问题，导致执行延迟和资源浪费。

核心思路：CT-VAM通过引入小脑-丘脑启发的结构，设计了一种紧凑的本地执行策略，能够从双视角视觉观测、自我感知和轻量级任务条件中高效预测动作片段。

技术框架：CT-VAM的整体架构包括三个主要模块：视觉输入模块、任务条件模块和动作预测模块。视觉输入模块处理双视角图像，自我感知模块提供状态信息，任务条件模块则提供轻量级的任务信息。

关键创新：CT-VAM的核心创新在于引入TARS（丘脑动作路由流），该模块能够独立路由动作、视觉和任务流，有效防止密集感知信息淹没任务相关条件，从而提升了模型的执行效率。

关键设计：CT-VAM仅使用68M参数，采用流分离的条件注意力解码器，设计了适应性损失函数以优化不同输入流的融合效果，确保高频控制的实时性和准确性。

🖼️ 关键图片

📊 实验亮点

CT-VAM在LIBERO任务中以68M参数实现了与更大视觉-语言-动作模型相当的成功率，且推理延迟显著降低，支持高频控制，展示了在资源受限环境中的稳健性和高效性。

🎯 应用场景

CT-VAM的设计使其在资源受限的机器人平台上具有广泛的应用潜力，尤其适用于需要高频控制的任务，如自动化制造、无人驾驶和服务机器人等领域。其云-边缘架构的优势也为未来的智能机器人系统提供了新的思路，能够在保持高效性的同时实现复杂的语义推理。

📄 摘要（原文）

Vision-language-action models have shown strong promise for robot manipulation, yet raw language is primarily needed to specify task intent rather than to be repeatedly processed during high-frequency low-level execution. Motivated by this separation, we propose a cerebello-thalamic-inspired vision-action model (CT-VAM) for efficient task-conditioned visuomotor control. CT-VAM acts as a compact local execution policy that predicts action chunks from dualview visual observations, proprioception, and a lightweight task condition, potentially enabling a practical cloud-edge paradigm in which high-level semantic reasoning can be handled by large models while fast closed-loop control runs on local hardware. To fuse heterogeneous inputs effectively, CT-VAM introduces TARS (Thalamic Action Routing Stream), a stream-separated conditional attention decoder that independently routes action, visual and task streams, preventing dense sensory tokens from overwhelming compact task-relevant conditions. With only 68M parameters, CT-VAM achieves LIBERO success rates competitive with substantially larger VLA models, while reducing inference latency. Together with flow-consistent inpainting for asynchronous chunk execution, CT-VAM supports high-frequency control and demonstrates robust realworld deployment on resource-constrained robotic platforms.

CT-VAM: A Cerebello-Thalamic-Inspired Vision-Action Model for Efficient Visuomotor Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理