Towards Open-World Grasping with Large Vision-Language Models

📄 arXiv: 2406.18722v4 📥 PDF

作者: Georgios Tziafas, Hamidreza Kasaei

分类: cs.RO, cs.CV

发布日期: 2024-06-26 (更新: 2024-10-13)

备注: 8th Conference on Robot Learning (CoRL 2024), Munich, Germany

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出OWG,利用视觉-语言模型实现开放世界中基于语言指令的机器人抓取

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放世界抓取 视觉-语言模型 机器人 零样本学习 语言指令 指代分割 抓取规划

📋 核心要点

  1. 现有基于LLM的机器人抓取方法依赖外部视觉模型,视觉信息的质量限制了LLM的推理能力。
  2. OWG利用VLM的隐式基础能力和联合语义-几何推理能力,结合分割和抓取合成模型,实现零样本开放世界抓取。
  3. 实验表明,OWG在开放式语言理解和机器人抓取任务中,优于之前的监督和基于零样本LLM的方法。

📝 摘要(中文)

在开放环境中,根据开放式的语言指令抓取物体是机器人领域的一项根本性挑战。一个开放世界抓取系统需要结合高层次的上下文信息与低层次的物理几何推理,才能适用于任意场景。现有工作利用大型语言模型(LLM)中蕴含的网络规模知识来规划和推理机器人任务,但依赖于外部的视觉和动作模型来将这些知识与环境关联并参数化执行动作。这种设置存在两个主要瓶颈:a) LLM的推理能力受到视觉基础质量的限制;b) LLM不包含对世界的低层次空间理解,这对于接触丰富的抓取场景至关重要。本文证明了现代视觉-语言模型(VLM)能够克服这些限制,因为它们具有隐式的基础能力,并且可以联合推理语义和几何信息。我们提出了OWG,一个开放世界抓取流程,它结合了VLM与分割和抓取合成模型,通过适当的视觉提示机制以零样本方式解锁对世界的理解,包含三个阶段:开放式指代分割、基于基础的抓取规划和通过接触推理的抓取排序。我们在杂乱的室内场景数据集上进行了广泛的评估,以展示OWG在从开放式语言中进行基础的鲁棒性,以及在模拟和硬件中的开放世界机器人抓取实验,证明了与以前的监督和基于零样本LLM的方法相比,OWG具有更优越的性能。

🔬 方法详解

问题定义:论文旨在解决开放世界中,机器人根据自然语言指令抓取物体的问题。现有方法依赖于大型语言模型(LLM)进行高级推理,但需要额外的视觉模型进行环境感知,这导致LLM的推理能力受限于视觉模型的性能。此外,LLM缺乏对环境的低层次空间理解,难以处理接触丰富的抓取场景。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)同时进行语义理解和几何推理。VLM能够将语言指令与视觉信息进行对齐,从而直接进行抓取规划,无需依赖额外的视觉模型。此外,VLM能够理解场景中的空间关系,从而更好地处理接触丰富的抓取任务。

技术框架:OWG包含三个主要阶段:1) 开放式指代分割:利用VLM根据语言指令分割出目标物体。2) 基于基础的抓取规划:利用VLM对分割出的物体进行抓取姿态规划。3) 通过接触推理的抓取排序:利用VLM对规划的抓取姿态进行排序,选择最佳的抓取姿态。整个流程以零样本方式进行,无需额外的训练数据。

关键创新:论文的关键创新在于利用VLM进行端到端的开放世界抓取。与现有方法相比,OWG无需依赖额外的视觉模型,可以直接从语言指令中进行抓取规划。此外,OWG能够利用VLM的语义和几何推理能力,更好地处理复杂的抓取场景。

关键设计:OWG的关键设计包括:1) 使用视觉提示机制来引导VLM进行分割和抓取规划。2) 使用接触推理来评估抓取姿态的质量。3) 使用零样本学习的方式,无需额外的训练数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在杂乱的室内场景数据集上进行了广泛的评估,结果表明,OWG在开放式语言理解和机器人抓取任务中,优于之前的监督和基于零样本LLM的方法。具体而言,OWG在抓取成功率方面取得了显著提升,证明了其在开放世界抓取任务中的有效性。

🎯 应用场景

该研究成果可应用于家庭服务机器人、工业自动化、医疗辅助等领域。例如,家庭服务机器人可以根据用户的语言指令抓取物品,工业机器人可以根据生产任务自动抓取零件,医疗辅助机器人可以帮助医生抓取手术器械。该研究的未来发展方向包括提高抓取的鲁棒性和泛化能力,以及实现更复杂的抓取任务。

📄 摘要(原文)

The ability to grasp objects in-the-wild from open-ended language instructions constitutes a fundamental challenge in robotics. An open-world grasping system should be able to combine high-level contextual with low-level physical-geometric reasoning in order to be applicable in arbitrary scenarios. Recent works exploit the web-scale knowledge inherent in large language models (LLMs) to plan and reason in robotic context, but rely on external vision and action models to ground such knowledge into the environment and parameterize actuation. This setup suffers from two major bottlenecks: a) the LLM's reasoning capacity is constrained by the quality of visual grounding, and b) LLMs do not contain low-level spatial understanding of the world, which is essential for grasping in contact-rich scenarios. In this work we demonstrate that modern vision-language models (VLMs) are capable of tackling such limitations, as they are implicitly grounded and can jointly reason about semantics and geometry. We propose OWG, an open-world grasping pipeline that combines VLMs with segmentation and grasp synthesis models to unlock grounded world understanding in three stages: open-ended referring segmentation, grounded grasp planning and grasp ranking via contact reasoning, all of which can be applied zero-shot via suitable visual prompting mechanisms. We conduct extensive evaluation in cluttered indoor scene datasets to showcase OWG's robustness in grounding from open-ended language, as well as open-world robotic grasping experiments in both simulation and hardware that demonstrate superior performance compared to previous supervised and zero-shot LLM-based methods. Project material is available at https://gtziafas.github.io/OWG_project/ .