TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models

📄 arXiv: 2511.05275v1 📥 PDF

作者: Hokyun Im, Euijin Jeong, Jianlong Fu, Andrey Kolobov, Youngwoon Lee

分类: cs.RO, cs.LG

发布日期: 2025-11-07

备注: Project webpage : https://jellyho.github.io/TwinVLA/


💡 一句话要点

TwinVLA:利用双单臂视觉-语言-动作模型实现数据高效的双臂操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 双臂操作 视觉-语言-动作模型 数据高效 模块化组合 机器人学习

📋 核心要点

  1. 现有VLA模型在双臂操作任务中需要大量额外的双臂数据进行微调,数据效率低。
  2. TwinVLA通过组合两个预训练的单臂VLA模型,构建模块化的双臂VLA框架,无需双臂预训练。
  3. 实验表明,TwinVLA在真实和模拟环境中优于单体RDT-1B模型,并缩小了与SOTA模型的差距。

📝 摘要(中文)

本文提出TwinVLA,一个模块化框架,通过组合两个预训练的单臂视觉-语言-动作模型(VLA)来构建协同的双臂VLA,旨在解决双臂操作任务中数据效率低下的问题。与在单臂和双臂数据混合上训练的单体跨具身模型不同,TwinVLA通过组合预训练的单臂策略,提高了数据效率和性能,无需任何双臂预训练。在真实和模拟环境中的各种双臂任务中,TwinVLA优于具有相当规模的单体RDT-1B模型。此外,它缩小了与依赖大量专有双臂数据和计算成本的state-of-the-art模型$π_0$之间的差距。这些结果表明,我们的模块化组合方法是利用公共单臂数据实现高性能双臂操作的数据高效且可扩展的途径。

🔬 方法详解

问题定义:现有的视觉-语言-动作模型(VLA)在双臂操作任务中面临数据效率的挑战。由于公开数据集主要集中于单臂演示,因此将VLA模型适配于双臂任务通常需要大量的额外双臂数据和微调,这限制了其在实际应用中的可行性。现有方法,如单体跨具身模型,虽然可以处理单臂和双臂数据,但往往需要混合数据集进行训练,效率较低,且性能提升有限。

核心思路:TwinVLA的核心思路是将双臂操作任务分解为两个独立的单臂操作任务,并利用预训练的单臂VLA模型来解决这些子任务。通过模块化组合两个单臂VLA模型,TwinVLA能够实现协同的双臂操作,而无需从头开始训练或进行大量的双臂数据微调。这种方法充分利用了现有的单臂数据集,提高了数据效率。

技术框架:TwinVLA框架包含两个预训练的单臂VLA模型,分别控制双臂。框架的关键在于如何协调这两个单臂模型,使其能够协同完成双臂任务。具体流程如下:1) 接收视觉和语言输入;2) 两个单臂VLA模型分别根据输入生成各自的动作;3) 将两个动作指令发送给机器人执行。框架的设计允许灵活地替换或升级单个单臂VLA模型,而无需重新训练整个系统。

关键创新:TwinVLA的关键创新在于其模块化的组合方法。与传统的单体模型相比,TwinVLA能够充分利用预训练的单臂VLA模型的知识,从而在双臂操作任务中实现更高的数据效率和更好的性能。此外,TwinVLA的模块化设计使其更易于扩展和维护。

关键设计:TwinVLA的关键设计包括:1) 使用预训练的单臂VLA模型作为基础模块,这些模型可以是任何现有的单臂VLA模型;2) 设计合适的协调机制,确保两个单臂模型能够协同完成双臂任务,例如,可以通过共享状态信息或使用注意力机制来实现协调;3) 针对特定的双臂任务,可能需要对单臂VLA模型进行微调,以适应任务的需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TwinVLA在真实和模拟环境中的多个双臂操作任务上进行了评估。实验结果表明,TwinVLA在没有双臂预训练的情况下,优于具有相当规模的单体RDT-1B模型。此外,TwinVLA缩小了与依赖大量专有双臂数据和计算成本的state-of-the-art模型$π_0$之间的差距,证明了其数据效率和性能优势。

🎯 应用场景

TwinVLA具有广泛的应用前景,例如在智能制造中,可以用于双臂装配、物料搬运等任务;在家庭服务机器人中,可以用于双臂协同完成复杂的家务操作,如烹饪、清洁等;在医疗领域,可以用于辅助医生进行手术操作。该研究的实际价值在于降低了双臂机器人开发的成本和难度,加速了双臂机器人在各个领域的应用。

📄 摘要(原文)

Vision-language-action models (VLAs) trained on large-scale robotic datasets have demonstrated strong performance on manipulation tasks, including bimanual tasks. However, because most public datasets focus on single-arm demonstrations, adapting VLAs for bimanual tasks typically requires substantial additional bimanual data and fine-tuning. To address this challenge, we introduce TwinVLA, a modular framework that composes two copies of a pretrained single-arm VLA into a coordinated bimanual VLA. Unlike monolithic cross-embodiment models trained on mixtures of single-arm and bimanual data, TwinVLA improves both data efficiency and performance by composing pretrained single-arm policies. Across diverse bimanual tasks in real-world and simulation settings, TwinVLA outperforms a comparably-sized monolithic RDT-1B model without requiring any bimanual pretraining. Furthermore, it narrows the gap to state-of-the-art model, $π_0$ which rely on extensive proprietary bimanual data and compute cost. These results establish our modular composition approach as a data-efficient and scalable path toward high-performance bimanual manipulation, leveraging public single-arm data.