SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

📄 arXiv: 2603.08124v1 📥 PDF

作者: Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun

分类: cs.RO, cs.AI, cs.LG

发布日期: 2026-03-09

备注: 14 pages, 3 figures


💡 一句话要点

提出SaiVLA-0:一种用于计算感知视觉-语言-动作的三脑架构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 机器人控制 三脑架构 模块化设计 特征缓存

📋 核心要点

  1. 现有视觉-语言-动作模型在计算效率和模块化方面存在挑战,难以适应不同机器人和任务。
  2. SaiVLA-0模仿大脑皮层、脑桥和小脑的结构,实现多模态信息融合、意图编译和快速在线控制。
  3. 实验表明,SaiVLA-0通过特征缓存减少训练时间,并在LIBERO任务中达到99.0%的平均成功率。

📝 摘要(中文)

本文提出了一种神经科学启发的视觉-语言-动作三元组架构SaiVLA-0。该架构模仿大脑的结构,其中大脑皮层提供稳定的高级多模态先验知识并保持冻结;脑桥适配器将这些皮层特征与实时本体感受输入相结合,并将意图编译为可执行的token;小脑(ParaCAT)执行快速、并行的分类解码以进行在线控制,并具有滞后/EMA/温度/熵等机制以保证稳定性。固定比例调度和两阶段特征缓存使系统具有计算感知能力和可复现性。受主动、中心凹视觉的启发,我们的手腕ROI通过校准投影在几何上与末端执行器相连,提供了一个运动稳定的高分辨率视图,该视图对细粒度的姿势变化敏感,并补充了主视图的全局上下文。该设计是模块化的:升级大脑皮层只需重新训练脑桥;更换机器人只需训练小脑;仅小脑的强化学习可以进一步改进控制,而无需触及高级语义。作为一篇概念和协议论文,我们概述了一个在匹配条件(GPU、分辨率、批次)下的计时协议,以验证预期的效率提升。我们还报告了初步的LIBERO证据,表明拆分特征缓存减少了训练时间(从7.5小时到4.5小时)并提高了平均成功率(从86.5%到92.5%),并且SaiVLA0达到了99.0%的平均成功率。

🔬 方法详解

问题定义:现有视觉-语言-动作模型通常计算成本高昂,难以在资源受限的平台上部署。此外,这些模型往往缺乏模块化设计,当更换机器人或调整控制策略时,需要重新训练整个模型,效率低下。现有方法难以兼顾计算效率、模块化和高性能。

核心思路:本文的核心思路是模仿人脑的结构,将视觉-语言-动作任务分解为三个模块:大脑皮层、脑桥和小脑。大脑皮层负责处理高级多模态信息,脑桥负责将高级信息与本体感受信息融合,小脑负责快速在线控制。这种模块化设计使得每个模块可以独立训练和优化,从而提高了计算效率和灵活性。

技术框架:SaiVLA-0的整体架构包含三个主要模块:大脑皮层(Cerebrum)、脑桥适配器(Pons Adapter)和小脑(ParaCAT)。大脑皮层使用预训练的多模态模型,提供稳定的高级先验知识。脑桥适配器将大脑皮层的特征与机器人的本体感受输入相结合,生成执行指令。小脑使用并行分类解码器进行快速在线控制,并采用滞后、EMA、温度和熵等机制来提高稳定性。此外,系统还采用了固定比例调度和两阶段特征缓存来提高计算效率。

关键创新:该论文的关键创新在于提出了一个神经科学启发的视觉-语言-动作三元组架构。与现有方法相比,SaiVLA-0具有以下优势:1) 模块化设计,易于扩展和维护;2) 计算效率高,可以在资源受限的平台上部署;3) 性能优越,在LIBERO任务中取得了显著的成果。此外,论文还提出了一个运动稳定的高分辨率手腕ROI,可以捕捉细粒度的姿势变化。

关键设计:在脑桥适配器中,使用了线性层将皮层特征和本体感受信息融合。小脑(ParaCAT)使用多层感知机进行分类解码,输出机器人的控制指令。为了提高稳定性,ParaCAT采用了滞后、EMA、温度和熵等机制。特征缓存分为两个阶段:第一阶段缓存大脑皮层的特征,第二阶段缓存脑桥适配器的特征。固定比例调度用于平衡不同模块的训练时间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SaiVLA-0在LIBERO任务中取得了显著的成果。通过拆分特征缓存,训练时间从7.5小时减少到4.5小时,平均成功率从86.5%提高到92.5%。最终,SaiVLA-0达到了99.0%的平均成功率,表明其具有优越的性能。

🎯 应用场景

该研究成果可应用于各种机器人控制任务,例如工业自动化、医疗机器人、服务机器人等。通过模块化设计,可以快速适应不同的机器人平台和任务需求。此外,该方法还可以应用于虚拟现实和增强现实等领域,提高人机交互的自然性和流畅性。

📄 摘要(原文)

We revisit Vision-Language-Action through a neuroscience-inspired triad. Biologically, the Cerebrum provides stable high-level multimodal priors and remains frozen; the Pons Adapter integrates these cortical features with real-time proprioceptive inputs and compiles intent into execution-ready tokens; and the Cerebellum (ParaCAT) performs fast, parallel categorical decoding for online control, with hysteresis/EMA/temperature/entropy for stability. A fixed-ratio schedule and two-stage feature caching make the system compute-aware and reproducible. Inspired by active, foveated vision, our wrist ROIs are geometrically tied to the end-effector via calibrated projection, providing a movement-stabilized, high-resolution view that is sensitive to fine-grained pose changes and complements the global context of the main view. The design is modular: upgrading the Cerebrum only retrains the Pons; changing robots only trains the Cerebellum; cerebellum-only RL can further refine control without touching high-level semantics. As a concept-and-protocol paper with preliminary evidence, we outline a timing protocol under matched conditions (GPU, resolution, batch) to verify anticipated efficiency gains. We also report preliminary LIBERO evidence showing that split feature caching reduces training time (7.5h to 4.5h) and improves average success (86.5% to 92.5%) under official N1.5 head-only training, and that SaiVLA0 reaches 99.0% mean success.