GraspSAM: When Segment Anything Model Meets Grasp Detection

📄 arXiv: 2409.12521v2 📥 PDF

作者: Sangjun Noh, Jongwon Kim, Dongwoo Nam, Seunghyeok Back, Raeyoung Kang, Kyoobin Lee

分类: cs.RO, eess.SY

发布日期: 2024-09-19 (更新: 2024-09-23)

备注: 6 pages (main), 1 page (references)


💡 一句话要点

GraspSAM:基于SAM的提示驱动、类别无关抓取检测方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 抓取检测 Segment Anything Model 提示学习 类别无关 机器人 视觉伺服

📋 核心要点

  1. 现有抓取检测方法缺乏灵活性,难以处理各种形状的物体,且依赖于物体先验知识,用户引导控制能力不足。
  2. GraspSAM利用SAM的强大分割能力,通过适配器和轻量级解码器,实现了提示驱动和类别无关的抓取检测。
  3. GraspSAM在多个数据集上取得了SOTA性能,并展示了对不同类型提示的鲁棒性,验证了其在机器人应用中的有效性。

📝 摘要(中文)

本文提出GraspSAM,一种基于Segment Anything Model (SAM) 的创新扩展,专为提示驱动和类别无关的抓取检测而设计。与以往受限于小规模训练数据的方法不同,GraspSAM利用SAM的大规模训练和基于提示的分割能力,高效地支持目标对象和类别无关的抓取。通过使用适配器、可学习的token嵌入和轻量级的修改解码器,GraspSAM只需最少的微调即可将对象分割和抓取预测集成到一个统一的框架中。该模型在包括Jacquard、Grasp-Anything和Grasp-Anything++在内的多个数据集上实现了最先进的(SOTA)性能。大量的实验证明了GraspSAM在处理不同类型提示(如点、框和语言)方面的灵活性,突出了其在现实世界机器人应用中的鲁棒性和有效性。

🔬 方法详解

问题定义:现有的抓取检测方法通常需要大量的特定物体训练数据,泛化能力差,难以处理未见过的物体。此外,许多方法依赖于物体的类别信息,限制了其在未知环境中的应用。用户交互方式也较为单一,缺乏灵活性。

核心思路:GraspSAM的核心思路是利用预训练的SAM模型强大的分割能力,通过少量微调,使其能够同时进行物体分割和抓取预测。通过提示(如点、框或文本)引导SAM分割目标物体,然后基于分割结果预测抓取姿态,从而实现类别无关的抓取检测。

技术框架:GraspSAM的整体框架包括以下几个主要模块:1) SAM编码器:使用预训练的SAM模型提取图像特征。2) 提示编码器:将用户提供的提示(点、框、文本等)编码成特征向量。3) 适配器:将SAM的图像特征和提示特征进行融合。4) 可学习Token嵌入:学习额外的token嵌入,用于指导抓取预测。5) 轻量级解码器:基于融合后的特征预测抓取姿态。

关键创新:GraspSAM的关键创新在于将SAM的分割能力与抓取检测任务相结合,实现了提示驱动和类别无关的抓取。通过适配器和可学习的token嵌入,GraspSAM能够有效地利用SAM的预训练知识,并将其迁移到抓取检测任务中。与传统的抓取检测方法相比,GraspSAM不需要大量的特定物体训练数据,具有更强的泛化能力。

关键设计:GraspSAM使用了轻量级的解码器,以减少计算量和提高推理速度。损失函数包括分割损失和抓取损失,用于联合优化分割和抓取预测。适配器的具体结构和参数设置对模型的性能有重要影响,需要根据具体任务进行调整。可学习Token嵌入的数量和维度也是需要仔细设计的超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GraspSAM在Jacquard、Grasp-Anything和Grasp-Anything++等多个数据集上取得了SOTA性能。实验结果表明,GraspSAM能够有效地处理不同类型的提示,并且具有很强的鲁棒性。例如,在Grasp-Anything++数据集上,GraspSAM的抓取成功率相比于其他方法有显著提升,证明了其在复杂环境下的抓取能力。

🎯 应用场景

GraspSAM具有广泛的应用前景,例如在智能制造中,机器人可以根据用户指定的物体进行抓取和装配;在家庭服务中,机器人可以根据用户的指令抓取物品;在物流仓储中,机器人可以自动抓取和搬运货物。该研究有助于提高机器人的智能化水平和适应性,使其能够更好地服务于人类。

📄 摘要(原文)

Grasp detection requires flexibility to handle objects of various shapes without relying on prior knowledge of the object, while also offering intuitive, user-guided control. This paper introduces GraspSAM, an innovative extension of the Segment Anything Model (SAM), designed for prompt-driven and category-agnostic grasp detection. Unlike previous methods, which are often limited by small-scale training data, GraspSAM leverages the large-scale training and prompt-based segmentation capabilities of SAM to efficiently support both target-object and category-agnostic grasping. By utilizing adapters, learnable token embeddings, and a lightweight modified decoder, GraspSAM requires minimal fine-tuning to integrate object segmentation and grasp prediction into a unified framework. The model achieves state-of-the-art (SOTA) performance across multiple datasets, including Jacquard, Grasp-Anything, and Grasp-Anything++. Extensive experiments demonstrate the flexibility of GraspSAM in handling different types of prompts (such as points, boxes, and language), highlighting its robustness and effectiveness in real-world robotic applications.