DexGrasp-Diffusion: Diffusion-based Unified Functional Grasp Synthesis Method for Multi-Dexterous Robotic Hands

📄 arXiv: 2407.09899v2 📥 PDF

作者: Zhengshen Zhang, Lei Zhou, Chenchen Liu, Zhiyang Liu, Chengran Yuan, Sheng Guo, Ruiteng Zhao, Marcelo H. Ang, Francis EH Tay

分类: cs.RO

发布日期: 2024-07-13 (更新: 2024-10-23)

备注: 15 pages, 5 figures


💡 一句话要点

DexGrasp-Diffusion:基于扩散模型的多灵巧手统一功能性抓取合成方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 灵巧手抓取 扩散模型 功能性抓取 可供性 机器人操作

📋 核心要点

  1. 现有灵巧抓取生成方法难以兼顾物体操作优化和功能完整性,尤其是在满足特定可供性指令的功能性抓取合成方面存在挑战。
  2. DexGrasp-Diffusion提出了一种基于扩散模型的端到端方法,通过MultiHandDiffuser估计抓取姿态,并使用DexDiscriminator筛选功能性抓取。
  3. 实验表明,MultiHandDiffuser在成功率、抓取多样性和碰撞深度方面优于基线模型,并且DexGrasp-Diffusion能够为家用物品生成符合可供性指令的抓取。

📝 摘要(中文)

本文提出了一种名为DexGrasp-Diffusion的端到端模块化扩散方法,旨在解决为各种灵巧机械手合成功能性抓取的挑战。DexGrasp-Diffusion集成了MultiHandDiffuser,这是一种新颖的统一数据驱动扩散模型,用于多灵巧手抓取估计。同时,它还集成了DexDiscriminator,该模块采用物理判别器和具有开放词汇设置的功能判别器,以根据对象的可供性筛选物理上合理的抓取。在MultiDex数据集上进行的实验评估提供了充分的证据,证明MultiHandDiffuser在成功率、抓取多样性和碰撞深度方面优于基线模型。此外,我们还展示了DexGrasp-Diffusion能够可靠地为符合特定可供性指令的家用物品生成功能性抓取。

🔬 方法详解

问题定义:现有灵巧机械手的抓取生成方法主要关注优化物体操作,但缺乏对功能完整性的考虑,难以根据给定的可供性指令合成功能性抓取。此外,针对不同灵巧手的抓取生成方法通常是独立的,缺乏统一的解决方案。

核心思路:本文的核心思路是利用扩散模型强大的生成能力,学习多灵巧手的抓取姿态分布,并结合判别器筛选出物理上可行且满足可供性指令的功能性抓取。通过统一的扩散模型,可以处理不同类型的灵巧手,提高抓取的泛化能力。

技术框架:DexGrasp-Diffusion包含两个主要模块:MultiHandDiffuser和DexDiscriminator。MultiHandDiffuser是一个基于扩散模型的抓取姿态生成器,输入是物体模型和灵巧手类型,输出是抓取姿态。DexDiscriminator包含物理判别器和功能判别器,用于评估抓取的物理可行性和功能性。物理判别器判断抓取是否会发生碰撞,功能判别器判断抓取是否满足给定的可供性指令。

关键创新:本文的关键创新在于提出了MultiHandDiffuser,这是一个统一的数据驱动扩散模型,可以处理多种类型的灵巧手。此外,DexDiscriminator利用开放词汇设置,可以灵活地定义不同的可供性指令,提高了抓取的灵活性和适应性。

关键设计:MultiHandDiffuser使用Transformer网络作为扩散模型的骨干网络,学习抓取姿态的分布。DexDiscriminator使用图神经网络提取物体和手的特征,并使用对比学习损失函数训练判别器。物理判别器使用碰撞检测算法判断抓取是否发生碰撞。功能判别器使用预训练的语言模型(如CLIP)提取可供性指令的语义特征,并与抓取特征进行匹配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MultiHandDiffuser在MultiDex数据集上,相比基线模型,在成功率、抓取多样性和碰撞深度方面均有显著提升。DexGrasp-Diffusion能够为家用物品生成符合特定可供性指令的功能性抓取,验证了该方法在实际应用中的可行性。

🎯 应用场景

该研究成果可应用于智能制造、家庭服务机器人等领域。例如,机器人可以根据用户指令,抓取特定工具完成装配任务,或者在厨房中抓取餐具进行摆放。该方法能够提高机器人的操作灵活性和智能化水平,实现更复杂、更精细的操控任务。

📄 摘要(原文)

The versatility and adaptability of human grasping catalyze advancing dexterous robotic manipulation. While significant strides have been made in dexterous grasp generation, current research endeavors pivot towards optimizing object manipulation while ensuring functional integrity, emphasizing the synthesis of functional grasps following desired affordance instructions. This paper addresses the challenge of synthesizing functional grasps tailored to diverse dexterous robotic hands by proposing DexGrasp-Diffusion, an end-to-end modularized diffusion-based method. DexGrasp-Diffusion integrates MultiHandDiffuser, a novel unified data-driven diffusion model for multi-dexterous hands grasp estimation, with DexDiscriminator, which employs a Physics Discriminator and a Functional Discriminator with open-vocabulary setting to filter physically plausible functional grasps based on object affordances. The experimental evaluation conducted on the MultiDex dataset provides substantiating evidence supporting the superior performance of MultiHandDiffuser over the baseline model in terms of success rate, grasp diversity, and collision depth. Moreover, we demonstrate the capacity of DexGrasp-Diffusion to reliably generate functional grasps for household objects aligned with specific affordance instructions.