Get a Grip: Multi-Finger Grasp Evaluation at Scale Enables Robust Sim-to-Real Transfer

📄 arXiv: 2410.23701v1 📥 PDF

作者: Tyler Ga Wei Lum, Albert H. Li, Preston Culbertson, Krishnan Srinivasan, Aaron D. Ames, Mac Schwager, Jeannette Bohg

分类: cs.RO

发布日期: 2024-10-31


💡 一句话要点

提出大规模多指抓取评估数据集,实现鲁棒的Sim-to-Real迁移

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多指抓取 Sim-to-Real 抓取评估 深度学习 机器人操作 数据集 视觉抓取

📋 核心要点

  1. 现有数据集和方法难以训练用于多指抓取的判别模型,导致真实场景下的抓取性能不佳。
  2. 论文提出通过大规模数据集训练视觉抓取评估器,利用判别模型进行抓取选择和优化,提升抓取鲁棒性。
  3. 实验表明,使用新数据集训练的抓取评估器在模拟和真实环境中均优于现有方法,验证了数据集的重要性。

📝 摘要(中文)

本研究探讨了多指抓取算法实现鲁棒的Sim-to-Real迁移的条件。虽然大量数据集促进了多指抓取生成模型的学习,但可靠的真实世界灵巧抓取仍然具有挑战性,大多数方法在硬件上部署时性能下降。一种替代策略是使用判别式抓取评估模型,根据真实世界传感器测量结果进行抓取选择和优化。这种范例在基于视觉的平行爪抓取中产生了最先进的结果,但在多指环境中仍未得到验证。本研究发现,现有数据集和方法不足以训练多指抓取的判别模型。为了大规模训练抓取评估器,数据集必须提供数百万个抓取,包括正反例,以及类似于推理时测量的视觉数据。为此,我们发布了一个新的开源数据集,包含4.3K个对象的350万个抓取,并标注了RGB图像、点云和训练好的NeRF。利用该数据集,我们训练了基于视觉的抓取评估器,在各种对象的广泛模拟和真实世界试验中,其性能优于基于分析和生成建模的基线。通过大量消融实验表明,性能的关键因素确实是评估器,并且其质量随着数据集的缩小而降低,证明了我们新数据集的重要性。

🔬 方法详解

问题定义:现有方法在多指灵巧抓取任务中,难以实现从仿真环境到真实环境的有效迁移。主要痛点在于缺乏足够大规模、高质量的数据集来训练判别式的抓取评估模型,导致模型在真实场景中泛化能力不足。

核心思路:论文的核心思路是构建一个大规模的多指抓取数据集,包含丰富的正负样本,并利用该数据集训练一个基于视觉的抓取评估器。该评估器能够根据真实世界的传感器数据(RGB图像、点云)评估抓取的质量,从而选择和优化抓取姿态。

技术框架:整体框架包含数据集构建和抓取评估器训练两个主要阶段。首先,通过仿真生成大量抓取数据,并标注RGB图像、点云和NeRF信息。然后,利用这些数据训练一个判别式的抓取评估器,该评估器以视觉数据作为输入,输出抓取的成功概率。在实际应用中,该评估器用于评估候选抓取姿态,并选择最优抓取。

关键创新:最重要的创新点在于构建了一个大规模、高质量的多指抓取数据集,该数据集包含350万个抓取,覆盖4.3K个对象,并提供了RGB图像、点云和NeRF等多种模态的数据。该数据集的规模和多样性使得训练出的抓取评估器具有更强的泛化能力。

关键设计:论文中,抓取评估器采用深度神经网络结构,具体网络结构未知。损失函数的设计至关重要,需要平衡正负样本的比例,并考虑抓取的稳定性、可达性等因素。数据集的构建过程中,需要仔细设计抓取姿态的生成策略,以保证数据的多样性和覆盖率。此外,NeRF信息的引入可以提高抓取评估器对物体几何形状的理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用该论文提出的数据集训练的抓取评估器在模拟和真实环境中均优于基于分析和生成建模的基线方法。消融实验表明,数据集的规模对抓取评估器的性能至关重要,随着数据集规模的减小,评估器的性能显著下降。在真实世界实验中,该方法在多种对象上实现了较高的抓取成功率,验证了其鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于机器人灵巧操作、自动化装配、家庭服务机器人等领域。通过提升多指抓取的鲁棒性和可靠性,可以实现更复杂的机器人任务,例如物体操作、工具使用等。未来,该技术有望推动机器人智能化水平的提升,使其能够更好地适应复杂多变的环境。

📄 摘要(原文)

This work explores conditions under which multi-finger grasping algorithms can attain robust sim-to-real transfer. While numerous large datasets facilitate learning generative models for multi-finger grasping at scale, reliable real-world dexterous grasping remains challenging, with most methods degrading when deployed on hardware. An alternate strategy is to use discriminative grasp evaluation models for grasp selection and refinement, conditioned on real-world sensor measurements. This paradigm has produced state-of-the-art results for vision-based parallel-jaw grasping, but remains unproven in the multi-finger setting. In this work, we find that existing datasets and methods have been insufficient for training discriminitive models for multi-finger grasping. To train grasp evaluators at scale, datasets must provide on the order of millions of grasps, including both positive and negative examples, with corresponding visual data resembling measurements at inference time. To that end, we release a new, open-source dataset of 3.5M grasps on 4.3K objects annotated with RGB images, point clouds, and trained NeRFs. Leveraging this dataset, we train vision-based grasp evaluators that outperform both analytic and generative modeling-based baselines on extensive simulated and real-world trials across a diverse range of objects. We show via numerous ablations that the key factor for performance is indeed the evaluator, and that its quality degrades as the dataset shrinks, demonstrating the importance of our new dataset. Project website at: https://sites.google.com/view/get-a-grip-dataset.