Embodiment Transfer Learning for Vision-Language-Action Models
作者: Chengmeng Li, Yaxin Peng
分类: cs.RO
发布日期: 2025-11-03
💡 一句话要点
提出ET-VLA框架,通过具身迁移学习提升VLA模型在多机器人协作中的性能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)
关键词: 具身智能 迁移学习 视觉-语言-动作模型 多机器人协作 合成数据 机器人学习 图神经网络
📋 核心要点
- 现有VLA模型在多机器人协作任务中表现不足,难以有效区分和利用不同机器人的功能。
- ET-VLA通过合成数据预训练和具身图思维,使模型能更好适应新具身并理解多机器人角色。
- 实验表明,ET-VLA在真实机器人任务中显著优于现有方法,性能提升超过53.2%。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在机器人学习领域取得了显著进展,能够利用大规模、跨具身数据进行训练,并针对特定机器人进行微调。然而,目前最先进的自回归VLA模型在多机器人协作方面表现不佳。本文提出了一种具身迁移学习框架,称为ET-VLA,用于高效且有效地将预训练的VLA模型迁移到多机器人场景。ET-VLA的核心是合成持续预训练(SCP),它使用合成生成的数据来预热模型,使其适应新的具身,从而避免了对真实人类演示的需求,并降低了数据收集成本。SCP使模型能够学习正确的动作和精确的动作token数量。在SCP之后,模型在目标具身数据上进行微调。为了进一步提高模型在多具身环境下的性能,我们提出了一种具身图思维技术,该技术将每个子任务表示为一个节点,使VLA模型能够在任务执行期间区分每个具身的功能和角色。本文以双臂机器人为例,验证了该方法在多机器人场景中的有效性。在模拟基准和真实机器人上的实验结果表明,我们提出的ET-VLA在六个真实世界任务上的性能超过OpenVLA 53.2%。我们将开源所有代码,以支持社区推进VLA模型在机器人学习中的发展。
🔬 方法详解
问题定义:现有的视觉-语言-动作(VLA)模型在单机器人任务上表现出色,但当应用于多机器人协作场景时,面临着挑战。主要痛点在于模型难以区分不同机器人的功能和角色,导致协作效率低下,甚至任务失败。此外,针对每个新的多机器人系统,都需要大量的真实数据进行训练,成本高昂。
核心思路:ET-VLA的核心思路是利用具身迁移学习,将预训练的VLA模型高效地迁移到多机器人系统。通过合成数据预训练(SCP)来模拟不同机器人的具身特性,使模型能够快速适应新的机器人。同时,引入具身图思维(Embodied Graph-of-Thought)技术,将任务分解为子任务,并为每个机器人分配特定的角色,从而提高协作效率。
技术框架:ET-VLA框架主要包含两个阶段:合成持续预训练(SCP)和目标具身微调。在SCP阶段,利用合成数据生成器,模拟不同机器人的视觉和动作空间,对预训练的VLA模型进行预训练。在目标具身微调阶段,使用少量真实数据对模型进行微调,使其适应特定的多机器人系统。此外,在任务执行过程中,使用具身图思维技术,将任务分解为子任务,并为每个机器人分配特定的角色。
关键创新:ET-VLA的关键创新在于以下两点:一是提出了合成持续预训练(SCP)方法,利用合成数据来预热模型,使其能够快速适应新的具身,降低了数据收集成本。二是引入了具身图思维(Embodied Graph-of-Thought)技术,将任务分解为子任务,并为每个机器人分配特定的角色,从而提高了协作效率。
关键设计:SCP阶段的关键设计在于合成数据的生成方式。论文使用程序化生成方法,模拟不同机器人的视觉和动作空间。具体来说,通过随机改变机器人的形状、颜色和关节角度,生成不同的视觉图像。同时,通过随机组合不同的动作序列,生成不同的动作指令。在具身图思维方面,论文使用图神经网络来建模子任务之间的依赖关系,并为每个机器人分配一个节点,表示其在子任务中的角色。损失函数方面,使用了交叉熵损失函数来优化模型的动作预测能力。
📊 实验亮点
实验结果表明,ET-VLA在六个真实世界任务上的性能超过OpenVLA 53.2%。在模拟环境中,ET-VLA也取得了显著的性能提升。这些结果验证了ET-VLA框架的有效性,表明其能够显著提高VLA模型在多机器人协作中的性能。
🎯 应用场景
该研究成果可广泛应用于多机器人协作场景,例如:自动化装配线、协同搬运、医疗手术等。通过ET-VLA框架,可以快速部署新的多机器人系统,降低开发成本,提高生产效率。未来,该技术有望应用于更复杂的机器人协作任务,例如:灾难救援、太空探索等。
📄 摘要(原文)
Vision-language-action (VLA) models have significantly advanced robotic learning, enabling training on large-scale, cross-embodiment data and fine-tuning for specific robots. However, state-of-the-art autoregressive VLAs struggle with multi-robot collaboration. We introduce embodiment transfer learning, denoted as ET-VLA, a novel framework for efficient and effective transfer of pre-trained VLAs to multi-robot. ET-VLA's core is Synthetic Continued Pretraining (SCP), which uses synthetically generated data to warm up the model for the new embodiment, bypassing the need for real human demonstrations and reducing data collection costs. SCP enables the model to learn correct actions and precise action token numbers. Following SCP, the model is fine-tuned on target embodiment data. To further enhance the model performance on multi-embodiment, we present the Embodied Graph-of-Thought technique, a novel approach that formulates each sub-task as a node, that allows the VLA model to distinguish the functionalities and roles of each embodiment during task execution. Our work considers bimanual robots, a simple version of multi-robot to verify our approaches. We validate the effectiveness of our method on both simulation benchmarks and real robots covering three different bimanual embodiments. In particular, our proposed ET-VLA \space can outperform OpenVLA on six real-world tasks over 53.2%. We will open-source all codes to support the community in advancing VLA models for robot learning.