DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control
作者: Junjie Wen, Yichen Zhu, Jinming Li, Zhibin Tang, Chaomin Shen, Feifei Feng
分类: cs.RO, cs.CV
发布日期: 2025-02-09 (更新: 2025-08-09)
备注: The webpage is at https://dex-vla.github.io/. DexVLA is accepted by CoRL 2025
💡 一句话要点
DexVLA:利用可插拔扩散专家模型的视觉-语言模型,用于通用机器人控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 机器人控制 扩散模型 跨形态学习 课程学习
📋 核心要点
- 现有VLA模型在动作空间表示方面存在瓶颈,限制了其在复杂任务和不同机器人形态上的泛化能力。
- DexVLA通过引入可插拔的扩散动作专家和形态课程学习策略,提升了VLA模型的效率和泛化能力。
- 实验表明,DexVLA在多种机器人形态上表现优异,能够完成复杂任务,并在新形态上学习灵巧技能。
📝 摘要(中文)
本文提出DexVLA,旨在增强视觉-语言-动作(VLA)模型在复杂、长时程任务中的效率和泛化能力,适用于不同的机器人形态。DexVLA采用了一种新颖的基于扩散的动作专家,参数规模达到10亿,专为跨形态学习而设计。一种新颖的形态课程学习策略促进了高效训练:(1)在跨形态数据上预训练与VLA分离的扩散专家;(2)将VLA模型与特定形态对齐;(3)进行后训练以快速适应新任务。在包括单臂、双臂和灵巧手在内的多种形态上进行了全面的实验,证明了DexVLA无需特定任务调整即可适应具有挑战性的任务,能够以有限的数据学习新形态上的灵巧技能,并且能够仅使用直接语言提示来完成复杂的长时程任务,例如折叠衣物。在所有设置中,该方法都表现出优于Octo、OpenVLA和Diffusion Policy等最先进模型的性能。
🔬 方法详解
问题定义:现有视觉-语言-动作模型(VLA)在机器人控制领域展现出潜力,但其动作空间表示的局限性阻碍了其在复杂任务和不同机器人形态上的泛化能力。现有方法通常侧重于扩展视觉-语言模型(VLM)组件,而忽略了动作空间表示的重要性,这成为一个关键瓶颈。
核心思路:DexVLA的核心思路是解耦VLA模型和动作生成模块,并使用一个独立的、基于扩散模型的动作专家来处理动作生成。通过预训练这个动作专家,可以使其具备跨形态的动作生成能力,从而提高VLA模型的泛化性和训练效率。此外,采用形态课程学习策略,逐步将VLA模型与特定形态对齐,并进行后训练以适应新任务。
技术框架:DexVLA框架主要包含三个阶段:(1)扩散专家预训练:使用跨形态数据预训练一个独立的、基于扩散模型的动作专家,使其具备通用的动作生成能力。(2)VLA模型对齐:将预训练的扩散专家插入VLA模型中,并使用特定形态的数据对VLA模型进行微调,使其与特定形态对齐。(3)任务适应后训练:使用特定任务的数据对VLA模型进行后训练,使其能够快速适应新任务。
关键创新:DexVLA的关键创新在于:(1)引入了一个可插拔的、基于扩散模型的动作专家,用于解耦VLA模型和动作生成模块,从而提高了模型的泛化能力。(2)提出了一种形态课程学习策略,通过逐步将VLA模型与特定形态对齐,提高了模型的训练效率。(3)扩散专家参数规模达到10亿,具备强大的动作生成能力。
关键设计:扩散专家采用扩散模型架构,通过学习动作数据的分布来生成动作。形态课程学习策略包括三个阶段:首先,使用大量跨形态数据预训练扩散专家;然后,使用特定形态的数据对VLA模型进行微调,使其与特定形态对齐;最后,使用特定任务的数据对VLA模型进行后训练。损失函数包括扩散模型的损失函数和VLA模型的损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DexVLA在多个机器人形态上都取得了显著的性能提升,例如在折叠衣物等复杂任务上,DexVLA能够仅使用直接语言提示完成任务,并且优于Octo、OpenVLA和Diffusion Policy等最先进的模型。此外,DexVLA还能够以有限的数据学习新形态上的灵巧技能,展示了其强大的泛化能力。
🎯 应用场景
DexVLA具有广泛的应用前景,可用于各种机器人控制任务,例如工业自动化、家庭服务和医疗保健。该模型能够使机器人适应不同的环境和任务,并能够通过自然语言指令进行控制,从而降低了机器人使用的门槛。未来,DexVLA可以应用于更复杂的机器人系统,例如自动驾驶汽车和无人机。
📄 摘要(原文)
Enabling robots to perform diverse tasks across varied environments is a central challenge in robot learning. While vision-language-action (VLA) models have shown promise for generalizable robot skills, realizing their full potential requires addressing limitations in action representation and efficient training. Current VLA models often focus on scaling the vision-language model (VLM) component, while the action space representation remains a critical bottleneck. This paper introduces DexVLA, a novel framework designed to enhance the efficiency and generalization capabilities of VLAs for complex, long-horizon tasks across diverse robot embodiments. DexVLA features a novel diffusion-based action expert, scaled to one billion parameters, designed for cross-embodiment learning. A novel embodiment curriculum learning strategy facilitates efficient training: (1) pre-training the diffusion expert that is separable from the VLA on cross-embodiment data, (2) aligning the VLA model to specific embodiments, and (3) post-training for rapid adaptation to new tasks. We conduct comprehensive experiments across multiple embodiments, including single-arm, bimanual, and dexterous hand, demonstrating DexVLA's adaptability to challenging tasks without task-specific adaptation, its ability to learn dexterous skills on novel embodiments with limited data, and its capacity to complete complex, long-horizon tasks using only direct language prompting, such as laundry folding. In all settings, our method demonstrates superior performance compared to state-of-the-art models like Octo, OpenVLA, and Diffusion Policy.