MG-Grasp: Metric-Scale Geometric 6-DoF Grasping Framework with Sparse RGB Observations
作者: Kangxu Wang, Siang Chen, Chenxing Jiang, Shaojie Shen, Yixiang Dai, Guijin Wang
分类: cs.RO
发布日期: 2026-03-17
备注: 8 pages, 5 figures
💡 一句话要点
MG-Grasp:基于稀疏RGB图像的度量尺度几何6自由度抓取框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 6自由度抓取 机器人抓取 RGB图像 点云重建 3D基础模型 多视图几何 度量尺度重建
📋 核心要点
- 现有的单目RGB-D抓取方法依赖深度传感器,而仅使用RGB的6自由度抓取方法几何表示不准确,难以保证物理上的可靠性。
- MG-Grasp利用双视图3D基础模型重建度量尺度的稠密点云,从而实现仅使用RGB图像的高质量6自由度抓取。
- 在GraspNet-1Billion数据集和真实场景的实验结果表明,MG-Grasp在RGB-based 6-DoF抓取任务上达到了SOTA性能。
📝 摘要(中文)
本文提出了一种名为MG-Grasp的新型无深度信息的6自由度抓取框架,旨在实现高质量的物体抓取。该方法利用双视图3D基础模型以及相机内外参,从稀疏的RGB图像中重建度量尺度且多视图一致的稠密点云,并生成稳定的6自由度抓取姿态。在GraspNet-1Billion数据集和真实世界的实验表明,MG-Grasp在基于RGB的6自由度抓取方法中实现了最先进的(SOTA)抓取性能。
🔬 方法详解
问题定义:论文旨在解决仅使用RGB图像进行6自由度物体抓取时,由于缺乏深度信息导致的几何表示不准确,进而影响抓取稳定性和可靠性的问题。现有方法通常依赖深度传感器或产生不精确的几何信息,限制了其在实际机器人操作中的应用。
核心思路:论文的核心思路是利用预训练的3D基础模型,从稀疏的RGB图像中重建出具有度量尺度的稠密点云。通过多视图一致性约束,可以提高重建点云的质量和准确性,从而为后续的抓取姿态生成提供可靠的几何信息。这样,即使没有深度传感器,也能实现高质量的6自由度抓取。
技术框架:MG-Grasp框架主要包含以下几个阶段:1) 输入稀疏的RGB图像和相机内外参;2) 使用双视图3D基础模型进行点云重建;3) 通过多视图一致性优化重建的点云,得到度量尺度的稠密点云;4) 基于重建的点云,生成候选的6自由度抓取姿态;5) 对候选抓取姿态进行评估和筛选,选择最优的抓取姿态。
关键创新:该方法最重要的技术创新在于利用预训练的3D基础模型进行点云重建,并结合多视图一致性约束,实现了从稀疏RGB图像到度量尺度稠密点云的转换。与现有方法相比,该方法无需深度传感器,并且能够生成更精确的几何表示,从而提高了抓取的稳定性和可靠性。
关键设计:论文使用了特定的双视图3D基础模型(具体模型未在摘要中提及,未知)。多视图一致性优化可能涉及到ICP或其他点云配准算法。抓取姿态的生成和评估可能使用了基于几何的启发式方法或学习方法(具体细节未知)。损失函数的设计可能包括重建误差、一致性误差和抓取质量评估等多个方面(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
MG-Grasp在GraspNet-1Billion数据集上取得了SOTA的抓取性能,显著优于其他基于RGB的6自由度抓取方法。在真实世界的实验中,也验证了该方法在实际场景中的有效性和鲁棒性。(具体性能数据和提升幅度未知,摘要未提供)
🎯 应用场景
MG-Grasp框架在机器人操作领域具有广泛的应用前景,尤其适用于缺乏深度传感器的场景,例如家庭服务机器人、移动机器人和工业自动化等。该方法可以提高机器人在复杂环境中的物体抓取能力,实现更智能、更灵活的机器人操作。
📄 摘要(原文)
Single-view RGB-D grasp detection remains a com- mon choice in 6-DoF robotic grasping systems, which typically requires a depth sensor. While RGB-only 6-DoF grasp methods has been studied recently, their inaccurate geometric repre- sentation is not directly suitable for physically reliable robotic manipulation, thereby hindering reliable grasp generation. To address these limitations, we propose MG-Grasp, a novel depth- free 6-DoF grasping framework that achieves high-quality object grasping. Leveraging two-view 3D foundation model with camera intrinsic/extrinsic, our method reconstructs metric- scale and multi-view consistent dense point clouds from sparse RGB images and generates stable 6-DoF grasp. Experiments on GraspNet-1Billion dataset and real world demonstrate that MG-Grasp achieves state-of-the-art (SOTA) grasp performance among RGB-based 6-DoF grasping methods.