Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

📄 arXiv: 2603.07866v1 📥 PDF

作者: Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker

分类: cs.RO, cs.LG, eess.SY

发布日期: 2026-03-09


💡 一句话要点

提出一种基于VLM和部分观测的视角无关抓取流程,提升腿式机器人复杂环境下的抓取成功率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人抓取 视觉语言模型 点云补全 部分观测 安全抓取 腿式机器人 深度估计

📋 核心要点

  1. 移动机器人抓取面临遮挡导致的部分观测和深度估计不准确等难题,需要安全可行的抓取方案。
  2. 该论文提出一种端到端流程,利用VLM进行目标识别,并通过点云补全和碰撞过滤实现安全抓取。
  3. 实验结果表明,该方法在杂乱环境中显著提高了抓取成功率,达到90%,优于基线方法的30%。

📝 摘要(中文)

本文提出了一种端到端的语言引导抓取流程,旨在解决移动腿式机器人在杂乱、非结构化环境中因遮挡导致的部分观测、不可靠的深度估计以及需要无碰撞、可执行的抓取方法等挑战。该系统通过开放词汇目标选择实现自然语言命令引导下的抓取。系统首先使用开放词汇检测和可提示实例分割在RGB图像中定位目标,然后从RGB-D数据中提取以对象为中心的点云,并通过反向投影深度补偿和两阶段点云补全来提高遮挡下的几何可靠性。接着,生成并进行碰撞过滤的6自由度抓取候选,并使用面向安全的启发式方法(考虑可达性、接近可行性和间隙)选择可执行的抓取。在两个杂乱的桌面场景中,使用四足机器人手臂对该方法进行了评估,并与视角相关的基线方法进行了配对试验。结果表明,所提出的方法实现了90%的总体成功率(9/10),而基线方法的成功率仅为30%(3/10),显著提高了在杂乱环境中对遮挡和部分观测的鲁棒性。

🔬 方法详解

问题定义:现有移动机器人在复杂环境中进行抓取时,由于遮挡导致只能获取部分观测信息,深度估计的准确性受到影响,并且需要保证抓取过程的无碰撞和可执行性。因此,如何提高在部分观测下的抓取成功率,是本文要解决的核心问题。

核心思路:论文的核心思路是利用视觉语言模型(VLM)进行目标识别,结合点云补全技术提高几何信息的完整性,并通过安全导向的启发式方法选择可执行的抓取姿态。这种设计旨在克服遮挡带来的信息缺失,并确保抓取过程的安全性和可行性。

技术框架:该抓取流程主要包含以下几个阶段: 1. 目标检测与分割:使用开放词汇检测和可提示实例分割,根据自然语言指令在RGB图像中定位目标。 2. 点云提取与补全:从RGB-D数据中提取以对象为中心的点云,并通过反向投影深度补偿和两阶段点云补全来提高点云的完整性和准确性。 3. 抓取候选生成与过滤:生成多个6自由度抓取候选,并进行碰撞过滤,排除与环境发生碰撞的抓取姿态。 4. 抓取选择:使用安全导向的启发式方法,综合考虑可达性、接近可行性和间隙等因素,选择最优的抓取姿态。

关键创新:该方法最重要的创新点在于结合了视觉语言模型和点云补全技术,实现了视角无关的抓取。与传统的基于完整三维模型的抓取方法相比,该方法能够更好地处理部分观测的情况,提高了在复杂环境中的抓取鲁棒性。此外,安全导向的启发式抓取选择策略也保证了抓取过程的安全性。

关键设计:在点云补全阶段,采用了两阶段策略,具体细节未知。在抓取选择阶段,使用了安全导向的启发式方法,考虑了可达性、接近可行性和间隙等因素,但具体的参数设置和权重分配未知。此外,开放词汇检测和可提示实例分割的具体实现方式也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在两个杂乱的桌面场景中进行了评估,与视角相关的基线方法相比,总体成功率从30%提高到90%,显著提高了在遮挡和部分观测下的抓取鲁棒性。实验结果表明,该方法能够有效地处理复杂环境中的抓取任务,具有很强的实用性。

🎯 应用场景

该研究成果可应用于物流、家庭服务、灾害救援等领域。例如,在仓库中,机器人可以根据语音指令抓取特定物品;在家庭环境中,机器人可以帮助老人或残疾人完成日常物品的拿取;在灾害现场,机器人可以抓取危险物品或救援物资。该研究为移动机器人自主抓取提供了新的解决方案,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Robust grasping in cluttered, unstructured environments remains challenging for mobile legged manipulators due to occlusions that lead to partial observations, unreliable depth estimates, and the need for collision-free, execution-feasible approaches. In this paper we present an end-to-end pipeline for language-guided grasping that bridges open-vocabulary target selection to safe grasp execution on a real robot. Given a natural-language command, the system grounds the target in RGB using open-vocabulary detection and promptable instance segmentation, extracts an object-centric point cloud from RGB-D, and improves geometric reliability under occlusion via back-projected depth compensation and two-stage point cloud completion. We then generate and collision-filter 6-DoF grasp candidates and select an executable grasp using safety-oriented heuristics that account for reachability, approach feasibility, and clearance. We evaluate the method on a quadruped robot with an arm in two cluttered tabletop scenarios, using paired trials against a view-dependent baseline. The proposed approach achieves a 90% overall success rate (9/10) against 30% (3/10) for the baseline, demonstrating substantially improved robustness to occlusions and partial observations in clutter.