UniDexTok: A Unified Dexterous Hand Tokenizer from Real Data

📄 arXiv: 2606.10683v1 📥 PDF

作者: Dong Fang, Youjun Wu, Yuanxin Zhong, Rui Zhang, Yunlong Wang, Xiaosong Jia, Yu-Gang Jiang

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-06-09


💡 一句话要点

提出UniDexTok以解决灵巧手数据碎片化问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)

关键词: 灵巧手 状态标记 深度学习 机器人技术 人机交互

📋 核心要点

  1. 灵巧手的硬件设计差异使得现有方法难以实现共享状态表示,导致数据碎片化和联合训练困难。
  2. 提出统一灵巧手模型(UDHM)和UniDexTok,后者通过学习离散标记实现灵巧手状态的统一表示,无需重定向。
  3. 实验结果显示,UniDexTok在MPJAE和MPJPE上分别减少了98.98%和99.03%的误差,重建精度从厘米级提升至亚毫米级。

📝 摘要(中文)

灵巧手在精细操作中至关重要,但其硬件设计差异显著,导致难以定义共享状态表示。为此,本文提出统一灵巧手模型(UDHM),将人类和机器人手的状态映射到共享的22自由度语义接口。基于UDHM,本文引入UniDexTok,这是一种无重定向的状态标记器,从标准化的真实关节状态中学习体现条件的离散标记。UniDexTok为异构灵巧手提供统一表示,无需依赖重定向或仿真数据。与最近的基线UniHM相比,UniDexTok在MPJAE和MPJPE上分别减少了98.98%和99.03%的误差,显著提高了重建精度。

🔬 方法详解

问题定义:本文旨在解决灵巧手数据碎片化的问题,现有方法因硬件设计差异而难以实现有效的共享状态表示,导致联合训练困难。

核心思路:提出统一灵巧手模型(UDHM),将不同灵巧手的状态映射到一个共享的22自由度语义接口,并基于此设计UniDexTok,无需重定向即可学习离散标记。

技术框架:整体架构包括UDHM和UniDexTok两个主要模块。UDHM负责将不同手的状态标准化,而UniDexTok则通过学习这些标准化状态生成统一的标记表示。

关键创新:UniDexTok的最大创新在于其无重定向的状态标记能力,能够直接从真实数据中学习标记,避免了传统方法依赖于仿真或重定向的局限。

关键设计:在设计中,UniDexTok采用了特定的损失函数以优化标记的生成,并通过深度学习网络结构来实现对关节状态的精确建模。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UniDexTok在MPJAE上从15.63度降低至0.16度,MPJPE从18.51毫米降低至0.18毫米,分别实现了98.98%和99.03%的误差减少,显著提升了重建精度。

🎯 应用场景

该研究的潜在应用领域包括人机交互、机器人抓取和虚拟现实等。通过提供统一的灵巧手状态表示,UniDexTok能够促进不同硬件平台之间的协作与学习,推动智能机器人在复杂环境中的应用。

📄 摘要(原文)

Dexterous hands are essential for fine-grained manipulation, but their hardware designs vary substantially across embodiments. Differences in kinematics, joint definitions, and degrees of freedom make it difficult to define a shared state representation compared with parallel grippers. As a result, dexterous-hand data remains fragmented and difficult to use for joint training. In this work, we propose the Unified Dexterous Hand Model (UDHM), which maps human and robot hand states into a shared 22-DoF semantic interface. Based on UDHM, we introduce UniDexTok, a retargeting-free state tokenizer that learns embodiment-conditioned discrete tokens from standardized real joint states. UniDexTok provides a unified representation for heterogeneous dexterous hands without relying on retargeting or simulation data. Compared with the recent baseline UniHM, UniDexTok reduces MPJAE from 15.63 degrees to 0.16 degrees and MPJPE from 18.51 mm to 0.18 mm, corresponding to error reductions of 98.98% and 99.03%, respectively. These results improve reconstruction from centimeter-scale to sub-millimeter accuracy. Experiments further show that data from other embodiments improves target-embodiment reconstruction accuracy, demonstrating the benefit of cross-embodiment tokenization. UniDexTok also shows strong zero-shot and few-shot reconstruction ability when new dexterous hands are introduced.