Object Pose and Shape Estimation for Grasping: Does it Work?

📄 arXiv: 2605.26944v1 📥 PDF

作者: Pavan Karke, Kushal Shah, Gaurav Singh, Md Faizal Karim, K Madhava Krishna, Rajat Talak

分类: cs.RO, cs.CV

发布日期: 2026-05-26

备注: 9 pages, 8 figures


💡 一句话要点

基于物体姿态和形状估计的抓取方法优于端到端抓取合成方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人抓取 物体姿态估计 形状估计 对跖点抓取 深度学习

📋 核心要点

  1. 现有端到端抓取合成方法在小物体抓取方面存在局限性,且对场景理解不足。
  2. 论文提出一种模块化抓取方法,先估计物体姿态和形状,再进行对跖点抓取采样。
  3. 实验表明,该模块化方法在抓取合成方面优于端到端方法,尤其是在小物体抓取上。

📝 摘要(中文)

近年来,物体姿态和形状估计问题取得了显著进展。编码器-解码器模型(如SAM3D、LRM、CRISP)和基于扩散的模型(如InstantMesh、Zero123、SceneComplete)展示了类别无关的形状编码能力和开放集泛化能力。本文探讨了一个问题:物体姿态和形状估计方法是否足够成熟,以至于当与对跖点抓取采样结合使用时,能够胜过端到端抓取合成方法?我们通过将研究范围限定为平行爪夹具、7自由度抓取和单视角RGB(-D)图像作为输入,详细探讨了这个问题。我们实现并比较了一种最先进的端到端抓取合成方法和三种模块化方法,这些方法首先估计场景中所有物体的姿态和形状,然后使用对跖点采样生成抓取。我们观察到,在所有实验中,模块化方法都优于端到端方法。即使对于小型物体,模块化方法也能够合成大量的抓取,而端到端方法则失败。模块化方法的有效性取决于姿态和形状估计的准确性,并在杂乱的场景中受到部分退化——这是现有姿态和形状估计方法的局限性。我们还分析了三种模块化方法的失败模式和运行时间,这些方法使用两种不同的物体姿态和形状估计方法:一种基于编码器-解码器模型,另一种基于扩散模型。最后,我们证明了单视角物体姿态和形状估计方法可以与视觉-语言模型结合使用,从而仅从单视角RGB-D图像中产生语言条件抓取。我们注意到与最先进的LERF-TOGO基线相当的性能。

🔬 方法详解

问题定义:论文旨在解决机器人抓取任务中,现有端到端抓取合成方法在处理小物体和复杂场景时表现不佳的问题。这些方法通常难以准确识别和抓取小物体,并且缺乏对场景几何信息的有效利用,导致抓取成功率较低。

核心思路:论文的核心思路是将抓取任务分解为两个独立的模块:物体姿态和形状估计以及抓取生成。首先,利用先进的物体姿态和形状估计方法从RGB-D图像中提取场景中物体的三维信息。然后,基于估计的物体姿态和形状,采用对跖点采样策略生成候选抓取姿势。这种模块化的设计允许针对每个模块进行优化,从而提高整体抓取性能。

技术框架:整体框架包含以下几个主要模块:1) RGB-D图像输入;2) 物体姿态和形状估计模块(使用编码器-解码器或扩散模型);3) 对跖点抓取采样模块;4) 抓取评估与选择模块。流程如下:输入RGB-D图像,通过姿态和形状估计模块获得场景中物体的三维模型,然后利用对跖点采样算法在物体表面生成多个候选抓取姿势,最后通过评估选择最优的抓取姿势。

关键创新:论文的关键创新在于将物体姿态和形状估计与对跖点抓取采样相结合,形成一种模块化的抓取方法。这种方法能够更有效地利用场景中的几何信息,从而提高抓取成功率,尤其是在小物体和复杂场景中。此外,论文还探索了不同的姿态和形状估计方法(编码器-解码器和扩散模型)对抓取性能的影响。

关键设计:论文中使用了两种不同的物体姿态和形状估计方法:一种是基于编码器-解码器的模型(如SAM3D、LRM、CRISP),另一种是基于扩散的模型(如InstantMesh、Zero123、SceneComplete)。对跖点采样算法用于在估计的物体表面生成候选抓取姿势。抓取评估标准可能包括抓取稳定性、碰撞检测等。此外,论文还探索了如何将视觉-语言模型与单视角物体姿态和形状估计方法结合,以实现语言条件抓取。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,模块化方法在抓取合成方面优于端到端方法,尤其是在小物体抓取方面。模块化方法能够为小物体合成大量的抓取姿势,而端到端方法则失败。此外,论文还展示了单视角物体姿态和形状估计方法可以与视觉-语言模型结合使用,实现语言条件抓取,并取得了与最先进的LERF-TOGO基线相当的性能。

🎯 应用场景

该研究成果可应用于机器人自动化抓取领域,例如工业自动化、物流分拣、家庭服务机器人等。通过准确估计物体姿态和形状,机器人能够更可靠地抓取各种物体,提高工作效率和适应性。结合视觉-语言模型,还可以实现更智能化的抓取,例如根据用户指令抓取特定物体。

📄 摘要(原文)

The problem of object pose and shape estimation has seen key advancements lately. Encoder-decoder (e.g., SAM3D, LRM, CRISP) and diffusion-based models (e.g., InstantMesh, Zero123, SceneComplete) have shown category-agnostic shape encoding capacity and open-set generalizability. In this work, we ask the question: Are the object pose and shape estimation methods mature enough, such that when used with antipodal grasp sampling, can outperform the end-to-end grasp synthesis methods? We explore this question in detail by scoping our study to parallel jaw grippers, 7-DoF grasps, and single-view RGB(-D) image as input. We implement and compare a state-of-the-art, end-to-end grasp synthesis method and three modular methods, which first estimate the object pose and shape for all objects in the scene, and generate grasps using antipodal sampling. We observe that the modular methods outperform the end-to-end method in all our experiments. The modular methods are able to synthesize plenty of grasps, even for small objects, where the end-to-end methods fail. The effectiveness of the modular methods is contingent on the accuracy of the pose and shape estimation, and suffers partial degradation in cluttered scenes - a limitation of the existing pose and shape estimation methods. We also analyze the failure modes and run-times for the three modular methods, which use two different ways of object pose and shape estimation: one based on an encoder-decoder model, while another a diffusion model. Finally, we demonstrate that the single-view object pose and shape estimation methods can be augmented with vision-language models to yield language-conditioned grasps from just single-view RGB-D image as input. We notice comparable performance to the state-of-the-art LERF-TOGO baseline.