BODex: Scalable and Efficient Robotic Dexterous Grasp Synthesis Using Bilevel Optimization

📄 arXiv: 2412.16490v3 📥 PDF

作者: Jiayi Chen, Yubin Ke, He Wang

分类: cs.RO

发布日期: 2024-12-21 (更新: 2025-09-03)

备注: ICRA 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

BODex:提出基于双层优化的可扩展高效机器人灵巧抓取合成方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 机器人灵巧抓取 抓取合成 双层优化 二次规划 梯度下降

📋 核心要点

  1. 现有灵巧抓取数据集构建方法效率低、对抓取质量有强假设,且缺乏标准基准,限制了数据驱动模型的发展。
  2. 提出基于双层优化的抓取合成方法,下层使用二次规划,上层使用梯度下降,提升抓取合成效率和质量。
  3. 实验表明,该方法合成的抓取在仿真和真实环境中均表现出色,并显著提升了学习模型的抓取成功率。

📝 摘要(中文)

机器人灵巧抓取对于与环境交互至关重要。为了释放数据驱动模型在灵巧抓取方面的潜力,大规模、高质量的数据集必不可少。虽然基于梯度的优化为构建此类数据集提供了一种有前景的方法,但先前的工作存在效率低下、抓取质量能量的强假设或实验对象集有限等局限性。此外,缺乏用于比较不同方法和数据集的标准基准阻碍了该领域的进展。为了应对这些挑战,我们开发了一个高效的合成系统和一个使用MuJoCo的综合灵巧抓取基准。我们将抓取合成公式化为一个双层优化问题,结合了一个新颖的下层二次规划(QP)和一个上层梯度下降过程。通过利用CUDA加速的机器人库和基于GPU的QP求解器的最新进展,我们的系统可以并行化数千个抓取,并在单个3090 GPU上每秒合成超过49个抓取。我们为Shadow、Allegro和Leap手合成的抓取在仿真中均实现了75%以上的成功率,穿透深度低于1毫米,优于几乎所有指标上的现有基线。与之前的大规模数据集DexGraspNet相比,我们的数据集显着提高了学习模型的性能,在仿真中的成功率从40%左右提高到80%。在Shadow Hand上训练的模型在真实世界测试中,对20个不同的对象实现了81%的成功率。代码和数据集已在我们的项目页面上发布:https://pku-epic.github.io/BODex。

🔬 方法详解

问题定义:论文旨在解决机器人灵巧抓取数据集构建效率低下的问题。现有方法通常计算成本高昂,难以生成大规模高质量的数据集。此外,现有方法对抓取质量的建模存在较强的假设,限制了其泛化能力。缺乏统一的评估基准也阻碍了不同方法之间的比较和进步。

核心思路:论文的核心思路是将抓取合成问题建模为一个双层优化问题。下层优化负责快速求解给定抓取姿态下的最佳关节配置,上层优化则通过梯度下降调整抓取姿态,从而最大化抓取质量。这种双层优化结构能够有效地探索抓取空间,并生成高质量的抓取姿态。

技术框架:该方法的技术框架主要包含以下几个模块:1) 对象模型加载模块,用于加载待抓取对象的3D模型;2) 抓取姿态初始化模块,用于生成初始的抓取姿态;3) 下层二次规划(QP)求解器,用于求解给定抓取姿态下的最佳关节配置;4) 上层梯度下降优化器,用于调整抓取姿态;5) 抓取质量评估模块,用于评估抓取的质量。整个流程迭代执行下层QP求解和上层梯度下降,直到抓取质量收敛或达到最大迭代次数。

关键创新:该方法最重要的技术创新点在于将抓取合成问题建模为一个双层优化问题,并利用CUDA加速的机器人库和GPU-based QP求解器来加速优化过程。与现有方法相比,该方法能够更高效地生成大规模高质量的抓取数据集,并且对抓取质量的建模更加灵活。

关键设计:下层QP求解器使用MuJoCo物理引擎来模拟抓取过程,并使用CUDA加速的QP求解器来求解最佳关节配置。上层梯度下降优化器使用Adam优化算法,并根据抓取质量的梯度来调整抓取姿态。抓取质量评估模块综合考虑了抓取的稳定性、力闭合性和穿透深度等因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在单个3090 GPU上实现了每秒49个抓取的合成速度,显著优于现有方法。合成的抓取在仿真环境中对Shadow、Allegro和Leap手的成功率均超过75%,穿透深度小于1mm。使用该方法生成的数据集训练的模型在真实Shadow Hand上实现了81%的抓取成功率,相较于使用DexGraspNet数据集训练的模型,成功率提升显著。

🎯 应用场景

该研究成果可应用于机器人自动化、智能制造、家庭服务等领域。高质量的灵巧抓取数据集能够提升机器人操作的智能化水平,使其能够更好地适应复杂多变的环境,完成各种精细操作任务。未来,该方法有望推动机器人技术在更多领域的应用。

📄 摘要(原文)

Robotic dexterous grasping is important for interacting with the environment. To unleash the potential of data-driven models for dexterous grasping, a large-scale, high-quality dataset is essential. While gradient-based optimization offers a promising way for constructing such datasets, previous works suffer from limitations, such as inefficiency, strong assumptions in the grasp quality energy, or limited object sets for experiments. Moreover, the lack of a standard benchmark for comparing different methods and datasets hinders progress in this field. To address these challenges, we develop a highly efficient synthesis system and a comprehensive benchmark with MuJoCo for dexterous grasping. We formulate grasp synthesis as a bilevel optimization problem, combining a novel lower-level quadratic programming (QP) with an upper-level gradient descent process. By leveraging recent advances in CUDA-accelerated robotic libraries and GPU-based QP solvers, our system can parallelize thousands of grasps and synthesize over 49 grasps per second on a single 3090 GPU. Our synthesized grasps for Shadow, Allegro, and Leap hands all achieve a success rate above 75% in simulation, with a penetration depth under 1 mm, outperforming existing baselines on nearly all metrics. Compared to the previous large-scale dataset, DexGraspNet, our dataset significantly improves the performance of learning models, with a success rate from around 40% to 80% in simulation. Real-world testing of the trained model on the Shadow Hand achieves an 81% success rate across 20 diverse objects. The codes and datasets are released on our project page: https://pku-epic.github.io/BODex.