UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

📄 arXiv: 2603.22264v1 📥 PDF

作者: Gu Zhang, Qicheng Xu, Haozhe Zhang, Jianhan Ma, Long He, Yiming Bao, Zeyu Ping, Zhecheng Yuan, Chenhao Lu, Chengbo Yuan, Tianhai Liang, Xiaoyu Tian, Maanping Shao, Feihong Zhang, Mingyu Ding, Yang Gao, Hao Zhao, Hang Zhao, Huazhe Xu

分类: cs.RO

发布日期: 2026-03-23

备注: Accepted by CVPR 2026


💡 一句话要点

UniDex:基于自中心人类视频的通用灵巧手控制机器人基础套件

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧操作 机器人学习 视觉语言动作 数据集 动作空间

📋 核心要点

  1. 灵巧操作面临真实机器人遥操作数据采集成本高、手部形态异构、控制维度高等挑战。
  2. UniDex套件通过构建大规模机器人中心数据集、统一的VLA策略和实用的人类数据捕获设置来解决这些问题。
  3. UniDex-VLA在工具使用任务中达到81%的平均任务进度,显著优于现有VLA基线,并展现出强大的泛化能力。

📝 摘要(中文)

本文提出了UniDex,一个机器人基础套件,它将大规模的机器人中心数据集与统一的视觉-语言-动作(VLA)策略以及实用的人类数据捕获设置相结合,用于通用灵巧手控制。首先,构建了UniDex-Dataset,一个包含超过5万条轨迹的机器人中心数据集,涵盖八种灵巧手(6-24个自由度),这些数据来源于自中心人类视频数据集。为了将人类数据转换为机器人可执行的轨迹,采用了一种人机协作的重定向程序,以对齐指尖轨迹,同时保持合理的手-物体接触。此外,还使用显式的3D点云,并屏蔽人类手部,以缩小运动学和视觉差距。其次,引入了功能-执行器对齐空间(FAAS),这是一个统一的动作空间,将功能相似的执行器映射到共享坐标,从而实现跨手部的迁移。利用FAAS作为动作参数化,训练了UniDex-VLA,一个在UniDex-Dataset上预训练并在任务演示上微调的3D VLA策略。此外,构建了UniDex-Cap,一个简单的便携式捕获设置,可以记录同步的RGB-D流和人类手部姿势,并将它们转换为机器人可执行的轨迹,从而实现人-机器人数据协同训练,减少对昂贵机器人演示的依赖。在两个不同手部的具有挑战性的工具使用任务中,UniDex-VLA实现了81%的平均任务进度,并且大大优于先前的VLA基线,同时表现出强大的空间、物体和零样本跨手部泛化能力。UniDex-Dataset、UniDex-VLA和UniDex-Cap共同构成了一个可扩展的基础套件,用于通用灵巧操作。

🔬 方法详解

问题定义:灵巧操作任务中,现有方法面临数据获取成本高昂、不同灵巧手结构差异大、以及高维控制空间带来的挑战。特别是,将人类的灵巧操作技能迁移到机器人上,需要解决人类和机器人手部在运动学和视觉上的差异,以及如何有效地利用人类数据进行机器人控制策略的学习。

核心思路:UniDex的核心思路是构建一个统一的框架,通过大规模数据集、统一的动作空间和便携式数据采集系统,实现跨不同灵巧手的通用灵巧操作控制。通过将人类操作视频转换为机器人可执行的轨迹,并利用视觉-语言-动作策略进行学习,从而减少对昂贵机器人演示数据的依赖。

技术框架:UniDex套件包含三个主要组成部分:UniDex-Dataset、UniDex-VLA和UniDex-Cap。UniDex-Dataset是一个大规模的机器人中心数据集,包含从人类视频转换而来的机器人可执行轨迹。UniDex-VLA是一个3D视觉-语言-动作策略,在UniDex-Dataset上进行预训练,并在特定任务上进行微调。UniDex-Cap是一个便携式数据采集系统,用于记录人类操作数据并将其转换为机器人可执行轨迹。整体流程是首先利用UniDex-Cap采集人类操作数据,然后将其转换为机器人可执行轨迹并添加到UniDex-Dataset中,最后利用UniDex-Dataset训练UniDex-VLA策略。

关键创新:UniDex的关键创新在于以下几个方面:1) 构建了大规模的机器人中心数据集UniDex-Dataset,该数据集涵盖多种灵巧手,并利用人机协作的重定向程序将人类操作数据转换为机器人可执行轨迹。2) 提出了功能-执行器对齐空间(FAAS),这是一个统一的动作空间,可以实现跨不同灵巧手的动作迁移。3) 设计了便携式数据采集系统UniDex-Cap,可以方便地采集人类操作数据。

关键设计:UniDex-VLA策略采用Transformer架构,输入包括3D点云和任务描述,输出是FAAS空间中的动作。损失函数包括模仿学习损失和任务奖励损失。UniDex-Cap采用RGB-D相机和手部姿态估计模型来记录人类操作数据。人机协作的重定向程序旨在对齐指尖轨迹,同时保持合理的手-物体接触。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniDex-VLA在两个不同手部的工具使用任务中取得了显著的成果,平均任务进度达到81%,大幅超越了之前的VLA基线方法。此外,UniDex-VLA还展现出了强大的空间、物体和零样本跨手部泛化能力,表明其具有很强的实际应用潜力。

🎯 应用场景

UniDex的研究成果可应用于各种需要灵巧操作的机器人应用场景,例如:工业自动化中的精密装配、医疗手术机器人中的微创操作、家庭服务机器人中的物品整理等。通过降低灵巧操作的开发成本和提高操作的泛化能力,UniDex有望加速机器人技术在这些领域的应用。

📄 摘要(原文)

Dexterous manipulation remains challenging due to the cost of collecting real-robot teleoperation data, the heterogeneity of hand embodiments, and the high dimensionality of control. We present UniDex, a robot foundation suite that couples a large-scale robot-centric dataset with a unified vision-language-action (VLA) policy and a practical human-data capture setup for universal dexterous hand control. First, we construct UniDex-Dataset, a robot-centric dataset over 50K trajectories across eight dexterous hands (6--24 DoFs), derived from egocentric human video datasets. To transform human data into robot-executable trajectories, we employ a human-in-the-loop retargeting procedure to align fingertip trajectories while preserving plausible hand-object contacts, and we operate on explicit 3D pointclouds with human hands masked to narrow kinematic and visual gaps. Second, we introduce the Function-Actuator-Aligned Space (FAAS), a unified action space that maps functionally similar actuators to shared coordinates, enabling cross-hand transfer. Leveraging FAAS as the action parameterization, we train UniDex-VLA, a 3D VLA policy pretrained on UniDex-Dataset and finetuned with task demonstrations. In addition, we build UniDex-Cap, a simple portable capture setup that records synchronized RGB-D streams and human hand poses and converts them into robot-executable trajectories to enable human-robot data co-training that reduces reliance on costly robot demonstrations. On challenging tool-use tasks across two different hands, UniDex-VLA achieves 81% average task progress and outperforms prior VLA baselines by a large margin, while exhibiting strong spatial, object, and zero-shot cross-hand generalization. Together, UniDex-Dataset, UniDex-VLA, and UniDex-Cap provide a scalable foundation suite for universal dexterous manipulation.