DexGrasp-Zero: A Morphology-Aligned Policy for Zero-Shot Cross-Embodiment Dexterous Grasping

📄 arXiv: 2603.16806v1 📥 PDF

作者: Yuliang Wu, Yanhan Lin, WengKit Lao, Yuhao Lin, Yi-Lin Wei, Wei-Shi Zheng, Ancong Wu

分类: cs.RO, cs.AI

发布日期: 2026-03-17


💡 一句话要点

提出DexGrasp-Zero,通过形态对齐策略实现灵巧手抓取的零样本跨具身迁移。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧手抓取 跨具身迁移 零样本学习 图卷积网络 形态对齐 机器人操作

📋 核心要点

  1. 现有跨具身灵巧手抓取方法依赖中间运动目标重定向,易引入误差并违反具身限制,阻碍迁移。
  2. DexGrasp-Zero 提出形态对齐图表示,结合物理属性注入的图卷积网络,学习通用抓取技能。
  3. 实验表明,该策略在未见过的硬件上实现了 85% 的零样本成功率,显著优于现有方法。

📝 摘要(中文)

为了满足日益多样化的灵巧手硬件需求,开发一种无需冗余重学习即可实现零样本跨具身抓取的策略至关重要。由于异构的手部运动学和物理约束,跨具身对齐极具挑战性。现有方法通常预测中间运动目标并将其重定向到每个具身,这可能会引入误差并违反特定于具身的限制,从而阻碍了跨不同手的迁移。为了克服这些限制,我们提出了DexGrasp-Zero,一种从不同具身学习通用抓取技能的策略,从而能够零样本迁移到未见过的手。我们首先引入了一种形态对齐的图表示,该表示将每个手的运动学关键点映射到解剖学上接地的节点,并为每个节点配备三轴正交运动原语,从而实现跨不同形态的结构和语义对齐。依靠这种基于图的表示,我们设计了一个形态对齐图卷积网络(MAGCN)来编码图以进行策略学习。MAGCN 结合了一种物理属性注入机制,该机制将特定于手的物理约束融合到图特征中,从而能够自适应地补偿不同的连杆长度和驱动限制,以实现精确和稳定的抓取。我们在 YCB 数据集上进行的大量模拟评估表明,我们的策略在四种异构手(Allegro、Shadow、Schunk、Ability)上联合训练,在未见过的硬件(LEAP、Inspire)上实现了 85% 的零样本成功率,优于最先进的方法 59.5%。真实世界的实验进一步评估了我们的策略在三个机器人平台(LEAP、Inspire、Revo2)上的性能,在未见过的物体上实现了 82% 的平均成功率。

🔬 方法详解

问题定义:论文旨在解决灵巧手抓取任务中,如何实现零样本跨具身迁移的问题。现有方法依赖于中间运动目标的重定向,这容易引入误差,并且难以满足不同灵巧手在运动学和物理约束上的差异,导致迁移性能下降。

核心思路:论文的核心思路是学习一种通用的抓取策略,该策略能够适应不同形态的灵巧手。通过将手部的运动学关键点映射到解剖学上对齐的图结构,并结合物理属性注入,使策略能够理解不同手部的结构和物理特性,从而实现零样本迁移。

技术框架:整体框架包含以下几个主要步骤:1) 构建形态对齐的图表示,将不同手部的运动学关键点映射到图节点,并赋予节点运动原语。2) 设计形态对齐图卷积网络 (MAGCN),用于编码图结构和物理属性信息。3) 使用 MAGCN 学习抓取策略,该策略能够根据输入的目标物体和手部形态,输出抓取动作。4) 在模拟环境中,使用多种不同形态的灵巧手进行联合训练。

关键创新:论文的关键创新在于形态对齐的图表示和物理属性注入机制。形态对齐的图表示能够将不同手部的结构信息进行对齐,从而使策略能够理解不同手部的共性。物理属性注入机制能够将手部的物理约束(如连杆长度和驱动限制)融入到图特征中,从而使策略能够自适应地补偿不同手部的差异。

关键设计:形态对齐图表示的关键设计在于将手部的运动学关键点映射到解剖学上接地的节点,并为每个节点配备三轴正交运动原语。MAGCN 的关键设计在于使用图卷积操作来聚合节点信息,并使用物理属性注入机制来融合手部的物理约束。损失函数的设计目标是最大化抓取成功率,并鼓励策略输出稳定的抓取动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在 YCB 数据集上的模拟实验表明,DexGrasp-Zero 在四种异构手(Allegro、Shadow、Schunk、Ability)上联合训练后,在未见过的硬件(LEAP、Inspire)上实现了 85% 的零样本成功率,优于现有方法 59.5%。真实世界的实验进一步验证了该策略的有效性,在三个机器人平台(LEAP、Inspire、Revo2)上,对未见过的物体实现了 82% 的平均成功率。

🎯 应用场景

该研究成果可广泛应用于机器人灵巧操作领域,例如工业自动化、家庭服务机器人、医疗康复等。通过零样本跨具身迁移,可以降低机器人部署和维护成本,提高机器人的适应性和通用性。未来,该技术有望应用于更复杂的任务,例如物体操作、装配和维修等。

📄 摘要(原文)

To meet the demands of increasingly diverse dexterous hand hardware, it is crucial to develop a policy that enables zero-shot cross-embodiment grasping without redundant re-learning. Cross-embodiment alignment is challenging due to heterogeneous hand kinematics and physical constraints. Existing approaches typically predict intermediate motion targets and retarget them to each embodiment, which may introduce errors and violate embodiment-specific limits, hindering transfer across diverse hands. To overcome these limitations, we propose \textit{DexGrasp-Zero}, a policy that learns universal grasping skills from diverse embodiments, enabling zero-shot transfer to unseen hands. We first introduce a morphology-aligned graph representation that maps each hand's kinematic keypoints to anatomically grounded nodes and equips each node with tri-axial orthogonal motion primitives, enabling structural and semantic alignment across different morphologies. Relying on this graph-based representation, we design a \textit{Morphology-Aligned Graph Convolutional Network} (MAGCN) to encode the graph for policy learning. MAGCN incorporates a \textit{Physical Property Injection} mechanism that fuses hand-specific physical constraints into the graph features, enabling adaptive compensation for varying link lengths and actuation limits for precise and stable grasping. Our extensive simulation evaluations on the YCB dataset demonstrate that our policy, jointly trained on four heterogeneous hands (Allegro, Shadow, Schunk, Ability), achieves an 85\% zero-shot success rate on unseen hardware (LEAP, Inspire), outperforming the state-of-the-art method by 59.5\%. Real-world experiments further evaluate our policy on three robot platforms (LEAP, Inspire, Revo2), achieving an 82\% average success rate on unseen objects.