Attribute-based Object Grounding and Robot Grasp Detection with Spatial Reasoning

📄 arXiv: 2509.08126v1 📥 PDF

作者: Houjian Yu, Zheming Zhou, Min Sun, Omid Ghasemalizadeh, Yuyin Sun, Cheng-Hao Kuo, Arnie Sen, Changhyun Choi

分类: cs.RO

发布日期: 2025-09-09

备注: Accepted to 2025 IEEE-RAS 24th International Conference on Humanoid Robots


💡 一句话要点

提出基于属性的对象定位与机器人抓取框架OGRG,解决复杂场景下的语言指定抓取任务。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人抓取 自然语言处理 视觉语言融合 空间推理 弱监督学习

📋 核心要点

  1. 现有方法在处理开放式自然语言指令和复杂场景(如存在重复物体)下的机器人抓取任务时存在局限性。
  2. OGRG框架通过双向视觉-语言融合和深度信息集成,增强了空间推理能力,从而更准确地定位目标物体并预测抓取姿态。
  3. 实验表明,OGRG在参考抓取合成(RGS)和参考抓取可供性(RGA)任务中均优于现有方法,并在真实机器人实验中验证了其有效性。

📝 摘要(中文)

本文提出了一种基于属性的对象定位与机器人抓取框架(OGRG),旨在解决人机交互中通过自然语言指定物体进行抓取的难题。现有方法难以处理开放形式的语言表达,且通常假设目标物体是唯一的。OGRG通过解释开放形式的语言表达式并进行空间推理,即使在包含重复物体实例的场景中也能定位目标物体并预测平面抓取姿态。该研究在两种设置下评估OGRG:(1)像素级全监督下的参考抓取合成(RGS);(2)仅使用单像素抓取标注的弱监督学习下的参考抓取可供性(RGA)。关键贡献包括双向视觉-语言融合模块以及深度信息集成以增强几何推理,从而提高定位和抓取性能。实验结果表明,OGRG在具有多样空间语言指令的桌面场景中优于强大的基线方法。在RGS中,它在单个NVIDIA RTX 2080 Ti GPU上以17.59 FPS运行,可用于闭环或多对象顺序抓取,同时提供优于所有基线的定位和抓取预测精度。在弱监督RGA设置下,OGRG在模拟和真实机器人试验中也超过了基线的抓取成功率,突显了其空间推理设计的有效性。

🔬 方法详解

问题定义:论文旨在解决机器人根据自然语言指令在复杂场景中抓取特定物体的问题。现有方法通常依赖于密集的像素级标注,且难以处理开放式的语言表达和场景中存在的重复物体实例,导致泛化能力不足。

核心思路:论文的核心思路是利用视觉和语言信息的双向融合,并结合深度信息进行空间推理,从而更准确地理解语言指令并定位目标物体。通过属性信息来区分不同的物体实例,并预测合适的抓取姿态。

技术框架:OGRG框架包含视觉编码器、语言编码器、双向视觉-语言融合模块和抓取预测模块。视觉编码器提取场景的视觉特征,语言编码器提取语言指令的语义特征。双向视觉-语言融合模块将视觉和语言特征进行融合,增强彼此的表达能力。抓取预测模块根据融合后的特征预测目标物体的抓取姿态。

关键创新:论文的关键创新在于双向视觉-语言融合模块和深度信息的集成。双向融合允许视觉信息引导语言理解,反之亦然,从而更准确地理解语言指令。深度信息的集成增强了几何推理能力,有助于区分不同的物体实例并预测合适的抓取姿态。

关键设计:双向视觉-语言融合模块采用Transformer结构,通过自注意力机制和交叉注意力机制实现视觉和语言信息的交互。深度信息通过深度图像或点云的形式输入网络,并与视觉特征进行融合。损失函数包括定位损失和抓取损失,用于优化网络的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OGRG在RGS任务中,在单个NVIDIA RTX 2080 Ti GPU上实现了17.59 FPS的运行速度,同时在定位和抓取预测精度上优于所有基线方法。在弱监督RGA设置下,OGRG在模拟和真实机器人试验中也超过了基线的抓取成功率,验证了其空间推理设计的有效性。

🎯 应用场景

该研究成果可应用于智能制造、家庭服务机器人、仓储物流等领域。通过自然语言指令,用户可以方便地控制机器人抓取特定物体,从而提高工作效率和人机交互的友好性。未来,该技术有望扩展到更复杂的场景和任务中,例如多物体顺序抓取、动态环境下的抓取等。

📄 摘要(原文)

Enabling robots to grasp objects specified through natural language is essential for effective human-robot interaction, yet it remains a significant challenge. Existing approaches often struggle with open-form language expressions and typically assume unambiguous target objects without duplicates. Moreover, they frequently rely on costly, dense pixel-wise annotations for both object grounding and grasp configuration. We present Attribute-based Object Grounding and Robotic Grasping (OGRG), a novel framework that interprets open-form language expressions and performs spatial reasoning to ground target objects and predict planar grasp poses, even in scenes containing duplicated object instances. We investigate OGRG in two settings: (1) Referring Grasp Synthesis (RGS) under pixel-wise full supervision, and (2) Referring Grasp Affordance (RGA) using weakly supervised learning with only single-pixel grasp annotations. Key contributions include a bi-directional vision-language fusion module and the integration of depth information to enhance geometric reasoning, improving both grounding and grasping performance. Experiment results show that OGRG outperforms strong baselines in tabletop scenes with diverse spatial language instructions. In RGS, it operates at 17.59 FPS on a single NVIDIA RTX 2080 Ti GPU, enabling potential use in closed-loop or multi-object sequential grasping, while delivering superior grounding and grasp prediction accuracy compared to all the baselines considered. Under the weakly supervised RGA setting, OGRG also surpasses baseline grasp-success rates in both simulation and real-robot trials, underscoring the effectiveness of its spatial reasoning design. Project page: https://z.umn.edu/ogrg