Dexora: Open-source VLA for High-DoF Bimanual Dexterity
作者: Zongzheng Zhang, Jingrui Pang, Zhuo Yang, Kun Li, Minwen Liao, Saining Zhang, Guoxuan Chi, Jinbang Guo, Huan-ang Gao, Modi Shi, Dongyun Ge, Yao Mu, Jiayuan Gu, Rui Chen, Hao Dong, Huazhe Xu, Li Yi, Yixin Zhu, Hang Zhao, Pengwei Wang, Shanghang Zhang, Guocai Yao, Jianyu Chen, Hongyang Li, Hao Zhao
分类: cs.RO
发布日期: 2026-05-18
备注: Accpeted by ICRA 2026
💡 一句话要点
Dexora:首个开源双臂双手机器人高自由度灵巧操作的VLA系统
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 双臂双手机器人 灵巧操作 遥操作 数据质量感知学习
📋 核心要点
- 现有VLA系统主要集中于双夹爪控制或单臂灵巧手操作,难以满足双臂双手机器人高自由度操作的需求。
- Dexora通过混合遥操作流程,结合外骨骼背包和Apple Vision Pro,分离手臂粗略运动和手指精细运动,构建高质量训练数据。
- 实验表明,Dexora在灵巧操作任务上显著优于现有VLA基线,并具备良好的泛化能力,验证了数据质量感知训练方法的有效性。
📝 摘要(中文)
本文介绍了Dexora,首个开源的视觉-语言-动作(VLA)系统,专门针对双臂、双手高自由度操作。该系统设计了一个混合遥操作流程,将手臂的粗略运动学(通过定制的外骨骼背包捕获)与精细的手指运动(通过Apple Vision Pro进行无标记手部追踪)分离,并驱动物理双臂双手平台和相同的MuJoCo数字孪生。利用该接口,构建了一个大型训练语料库:一个与实体匹配的合成语料库(10万条模拟轨迹,650万帧)和一个包含1万个遥操作片段的真实世界数据集(292万帧)。为了减轻嘈杂的遥操作演示的影响,提出了一种数据质量感知训练方法:离线判别器为扩散-Transformer策略训练提供片段级别的权重,降低低质量演示的权重。实验表明,Dexora在基本和灵巧基准测试中均优于有竞争力的VLA基线(例如,平均灵巧成功率为66.7% vs. 51.7%),在基本任务上达到90%的成功率,并显示出强大的分布外和跨实体泛化能力。消融实验证实了真实数据和判别器对于灵巧性的重要性。
🔬 方法详解
问题定义:现有VLA模型在机器人操作领域取得了显著进展,但大多局限于简单的双夹爪控制或单臂灵巧手操作。对于需要更高自由度和复杂协调的双臂双手机器人操作,现有方法难以有效学习和泛化,主要痛点在于缺乏高质量的训练数据和有效的学习策略。
核心思路:Dexora的核心思路是构建一个高质量、大规模的训练数据集,并设计一种数据质量感知的训练方法,以解决双臂双手机器人灵巧操作的学习问题。通过结合外骨骼背包和Apple Vision Pro的混合遥操作流程,能够同时捕捉手臂的粗略运动和手指的精细运动,从而生成更具代表性的训练数据。
技术框架:Dexora系统包含以下几个主要模块:1) 混合遥操作界面:使用定制的外骨骼背包捕捉手臂运动,使用Apple Vision Pro进行无标记手部追踪。2) 数据集构建:生成一个与实体匹配的合成数据集(MuJoCo模拟)和一个真实世界遥操作数据集。3) 数据质量评估:使用离线判别器评估每个片段的数据质量,并生成相应的权重。4) 策略训练:使用扩散-Transformer模型进行策略训练,并根据数据质量权重调整损失函数。
关键创新:Dexora的关键创新在于以下几个方面:1) 提出了一个混合遥操作流程,能够同时捕捉手臂的粗略运动和手指的精细运动,从而生成高质量的训练数据。2) 提出了一种数据质量感知的训练方法,通过离线判别器评估数据质量,并根据质量调整训练权重,从而提高模型的鲁棒性和泛化能力。3) 构建了首个开源的、专门针对双臂双手机器人高自由度操作的VLA系统。
关键设计:在数据质量评估方面,使用一个离线判别器来预测每个片段的质量得分,该判别器基于视觉和动作信息进行训练。在策略训练方面,使用扩散-Transformer模型来学习策略,损失函数根据数据质量权重进行调整,低质量片段的损失权重被降低。具体来说,损失函数可以表示为:L = Σ w_i * L_i,其中w_i是第i个片段的权重,L_i是第i个片段的损失。
🖼️ 关键图片
📊 实验亮点
Dexora在灵巧操作基准测试中取得了显著的性能提升,平均灵巧成功率达到66.7%,相比于其他VLA基线(51.7%)有显著提高。在基本任务上,Dexora的成功率达到90%。消融实验表明,真实数据和数据质量判别器对于提高灵巧操作性能至关重要。此外,Dexora还展示了良好的分布外和跨实体泛化能力。
🎯 应用场景
Dexora系统在多个领域具有广泛的应用前景,例如:工业自动化、医疗手术、家庭服务等。通过学习人类的灵巧操作技能,机器人可以执行更加复杂和精细的任务,提高生产效率和服务质量。未来,该系统可以进一步扩展到其他机器人平台和任务,实现更高级别的自主操作。
📄 摘要(原文)
Vision-Language-Action (VLA) models have recently become a central direction in embodied AI, but current systems are restricted to either dual-gripper control or single-arm dexterous hand manipulation. While low-dimensional gripper control can often be handled with simpler methods, high-dimensional dexterous hand control benefits greatly from full end-to-end VLA learning. In this work, we introduce Dexora, the first open-source VLA system that natively targets dual-arm, dual-hand high-DoF manipulation. We design a hybrid teleoperation pipeline that decouples gross arm kinematics (captured with a custom exoskeleton backpack) from fine finger motion (markerless hand tracking via Apple Vision Pro), and that drives both a physical dual-arm dual-hand platform and an identical MuJoCo digital twin. Using that interface, we assemble a large training corpus: an embodiment-matched synthetic corpus (100K simulated trajectories, 6.5M frames) and a real-world dataset of 10K teleoperated episodes (2.92M frames). To mitigate noisy teleoperation demonstrations, we propose a data-quality-aware training recipe: an offline discriminator provides clip-level weights for diffusion-transformer policy training, down-weighting low-quality demonstrations. Empirically, Dexora outperforms competitive VLA baselines on both basic and dexterous benchmarks (e.g., average dexterous success 66.7% vs. 51.7%), attains 90% success on basic tasks, and shows robust out-of-distribution and cross-embodiment generalization. Ablations confirm the importance of real data and the discriminator for dexterity.