Learning Geometry-Aware Nonprehensile Pushing and Pulling with Dexterous Hands

📄 arXiv: 2509.18455v2 📥 PDF

作者: Yunshuang Li, Yiyang Ling, Gaurav S. Sukhatme, Daniel Seita

分类: cs.RO

发布日期: 2025-09-22 (更新: 2025-10-05)

备注: Typos corrected


💡 一句话要点

提出几何感知灵巧手推拉方法GD2P,实现复杂环境下非抓取操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 灵巧手操作 非抓取操作 推拉操作 几何感知 扩散模型 机器人学习 运动规划

📋 核心要点

  1. 现有非抓取操作方法依赖简单夹爪或工具,难以应对复杂环境和多样物体,灵巧手虽有潜力但缺乏有效控制策略。
  2. GD2P通过学习预接触的灵巧手姿势,利用物体几何信息引导姿势生成,并通过物理模拟和扩散模型进行优化。
  3. 实验表明,GD2P在Allegro Hand和LEAP Hand上均表现良好,证明了其可扩展性和对不同手部形态的适用性。

📝 摘要(中文)

非抓取操作,如推和拉,使机器人能够移动、对齐或重新定位物体,这些物体可能由于其几何形状、尺寸或与机器人或环境的关系而难以抓取。现有的非抓取操作研究大多依赖于平行爪夹持器或诸如杆和刮刀之类的工具。相比之下,多指灵巧手为处理各种物体提供了更丰富的接触模式和通用性,从而为物体提供稳定的支撑,弥补了非抓取操作动力学建模的困难。因此,我们提出了几何感知灵巧推拉(GD2P),用于灵巧机器人手的非抓取操作。我们通过将问题定义为合成和学习预接触灵巧手姿势,从而实现有效的操作来研究推和拉。我们通过接触引导采样生成各种手姿势,使用物理模拟对其进行过滤,并训练以物体几何形状为条件的扩散模型来预测可行的姿势。在测试时,我们对手姿势进行采样,并使用标准运动规划器来选择和执行推拉动作。我们使用Allegro Hand进行了840次真实世界的实验,将我们的方法与基线进行比较。结果表明,GD2P为训练灵巧的非抓取操作策略提供了一种可扩展的途径。我们进一步在LEAP Hand上展示了GD2P,突出了其对不同手部形态的适用性。我们的预训练模型和数据集(包括2.3k个对象的130万个手部姿势)将开源,以促进进一步的研究。我们的项目网站位于:geodex2p.github.io。

🔬 方法详解

问题定义:论文旨在解决灵巧手在非抓取操作中的应用问题,特别是推和拉操作。现有方法主要依赖于平行爪夹持器或简单工具,无法充分利用灵巧手的多指协同能力,难以处理复杂形状和环境下的物体操作。此外,非抓取操作的动力学建模复杂,导致控制策略设计困难。

核心思路:论文的核心思路是学习预接触的灵巧手姿势,通过预测在接触前手的最佳位置和姿态,来实现有效的推拉操作。这种方法避免了直接建模复杂的动力学过程,而是通过数据驱动的方式学习操作策略。利用物体几何信息作为条件,引导手部姿势的生成,提高操作的成功率和鲁棒性。

技术框架:GD2P的整体框架包括以下几个主要阶段:1) 接触引导采样:生成多样化的手部姿势,这些姿势基于与物体的潜在接触点进行采样。2) 物理模拟过滤:使用物理引擎模拟这些姿势,并过滤掉不稳定的或不可行的姿势。3) 扩散模型训练:训练一个条件扩散模型,该模型以物体几何形状为条件,预测可行的手部姿势。4) 测试时姿势采样与运动规划:在测试时,从扩散模型中采样手部姿势,并使用标准的运动规划器选择和执行推拉动作。

关键创新:该论文的关键创新在于:1) 几何感知:利用物体几何信息作为条件,引导手部姿势的生成,提高了操作的针对性和效率。2) 扩散模型:使用扩散模型学习手部姿势的分布,能够生成多样且可行的姿势,提高了操作的鲁棒性。3) 预接触姿势学习:通过学习预接触姿势,避免了直接建模复杂的动力学过程,简化了控制策略的设计。

关键设计:在接触引导采样阶段,论文可能使用了特定的采样策略,例如基于物体表面的法向量或曲率进行采样。在物理模拟过滤阶段,可能设置了特定的稳定性指标,例如手的重心位置或接触力的分布。扩散模型的网络结构和损失函数也是关键的设计因素,可能使用了特定的卷积神经网络或Transformer结构,并结合了重构损失和对抗损失等。

📊 实验亮点

论文通过840次真实世界实验验证了GD2P的有效性。实验结果表明,GD2P能够成功地完成推拉操作,并且具有良好的可扩展性,可以应用于不同的灵巧手,例如Allegro Hand和LEAP Hand。此外,论文还开源了包含130万个手部姿势的数据集,为后续研究提供了宝贵的资源。

🎯 应用场景

该研究成果可应用于自动化装配、物流分拣、家庭服务机器人等领域。例如,在自动化装配中,机器人可以利用灵巧手进行非抓取操作,调整零件的位置和方向,提高装配效率。在物流分拣中,机器人可以利用灵巧手进行推拉操作,将货物从一个位置移动到另一个位置。在家庭服务机器人中,可以帮助机器人整理物品,例如推动桌子上的杂物。

📄 摘要(原文)

Nonprehensile manipulation, such as pushing and pulling, enables robots to move, align, or reposition objects that may be difficult to grasp due to their geometry, size, or relationship to the robot or the environment. Much of the existing work in nonprehensile manipulation relies on parallel-jaw grippers or tools such as rods and spatulas. In contrast, multi-fingered dexterous hands offer richer contact modes and versatility for handling diverse objects to provide stable support over the objects, which compensates for the difficulty of modeling the dynamics of nonprehensile manipulation. Therefore, we propose Geometry-aware Dexterous Pushing and Pulling (GD2P) for nonprehensile manipulation with dexterous robotic hands. We study pushing and pulling by framing the problem as synthesizing and learning pre-contact dexterous hand poses that lead to effective manipulation. We generate diverse hand poses via contact-guided sampling, filter them using physics simulation, and train a diffusion model conditioned on object geometry to predict viable poses. At test time, we sample hand poses and use standard motion planners to select and execute pushing and pulling actions. We perform 840 real-world experiments with an Allegro Hand, comparing our method to baselines. The results indicate that GD2P offers a scalable route for training dexterous nonprehensile manipulation policies. We further demonstrate GD2P on a LEAP Hand, highlighting its applicability to different hand morphologies. Our pre-trained models and dataset, including 1.3 million hand poses across 2.3k objects, will be open-source to facilitate further research. Our project website is available at: geodex2p.github.io.