TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers
作者: Bin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen
分类: cs.RO, cs.CV
发布日期: 2026-01-20
备注: GitHub: https://github.com/ZGC-EmbodyAI/TwinBrainVLA
💡 一句话要点
TwinBrainVLA:通过非对称混合Transformer释放通用VLM在具身任务中的潜力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 视觉-语言-动作模型 机器人控制 混合Transformer 语义理解 具身感知 迁移学习
📋 核心要点
- 现有VLA模型直接微调VLM骨干网络进行机器人控制,导致通用语义理解能力和精细运动技能学习之间的冲突。
- TwinBrainVLA通过非对称混合Transformer(AsyMoT)协调通用VLM(左脑)和具身感知VLM(右脑),解决上述冲突。
- 实验表明,TwinBrainVLA在操作性能上优于现有方法,并能保持VLM的通用视觉理解能力。
📝 摘要(中文)
本文提出TwinBrainVLA,一种新颖的架构,旨在协调一个保留通用语义理解的通用视觉-语言模型(VLM)和一个专门用于具身感知的VLM,以实现联合机器人控制。TwinBrainVLA通过一种新颖的非对称混合Transformer(AsyMoT)机制,协同一个冻结的“左脑”(保留强大的通用视觉推理能力)和一个可训练的“右脑”(专门用于具身感知)。这种设计允许“右脑”动态地从冻结的“左脑”查询语义知识,并将其与本体感受状态融合,为Flow-Matching Action Expert提供丰富的条件,以生成精确的连续控制。在SimplerEnv和RoboCasa基准上的大量实验表明,TwinBrainVLA相比最先进的基线,实现了卓越的操作性能,同时明确地保留了预训练VLM的全面视觉理解能力,为构建同时实现高层次语义理解和低层次物理灵巧性的通用机器人提供了一个有希望的方向。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型通常通过微调一个单体的视觉-语言模型(VLM)骨干网络来显式地进行机器人控制。然而,这种方法在保持高层次的通用语义理解和学习低层次的、精细的传感器运动技能之间造成了一种关键的紧张关系,经常导致模型“灾难性遗忘”其开放世界能力。
核心思路:TwinBrainVLA的核心思路是将VLM分解为两个部分:“左脑”和“右脑”。“左脑”是一个冻结的通用VLM,负责保持模型的通用语义理解能力。“右脑”是一个可训练的VLM,专门负责具身感知。通过这种分离,模型可以同时保持通用语义理解能力和学习精细的运动技能。
技术框架:TwinBrainVLA的整体架构包含三个主要模块:冻结的“左脑”VLM,可训练的“右脑”VLM,以及Flow-Matching Action Expert。“左脑”接收视觉输入,提取通用语义特征。“右脑”接收本体感受状态,并使用AsyMoT机制从“左脑”查询语义知识,融合后生成具身感知特征。Flow-Matching Action Expert接收“右脑”的输出,生成精确的连续控制。
关键创新:TwinBrainVLA的关键创新在于Asymmetric Mixture-of-Transformers (AsyMoT)机制。AsyMoT允许“右脑”动态地从冻结的“左脑”查询语义知识,并将其与本体感受状态融合。这种非对称的设计使得“右脑”可以利用“左脑”的通用语义知识,同时避免“左脑”受到具身任务的干扰。与现有方法的本质区别在于,TwinBrainVLA不是直接微调整个VLM,而是将VLM分解为两个部分,分别负责通用语义理解和具身感知。
关键设计:AsyMoT的具体实现细节未知,论文中可能包含关于Transformer层数、注意力机制类型、损失函数设计等关键参数设置,但摘要中未提及。Flow-Matching Action Expert的具体实现细节也未知,需要查阅论文全文。
📊 实验亮点
TwinBrainVLA在SimplerEnv和RoboCasa基准测试中表现出色,优于现有技术水平。该模型在提升操作性能的同时,能够保持预训练VLM的通用视觉理解能力。具体的性能数据和提升幅度需要在论文全文中查找。
🎯 应用场景
TwinBrainVLA具有广泛的应用前景,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。它可以使机器人更好地理解人类指令,并在复杂环境中执行任务。该研究有助于构建能够同时实现高层次语义理解和低层次物理灵巧性的通用机器人,从而提升机器人的智能化水平和服务能力。
📄 摘要(原文)
Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.