ASGrasp: Generalizable Transparent Object Reconstruction and 6-DoF Grasp Detection from RGB-D Active Stereo Camera
作者: Jun Shi, Yong A, Yixiang Jin, Dingzhe Li, Haoyu Niu, Zhezhu Jin, He Wang
分类: cs.RO, cs.CV
发布日期: 2024-05-09 (更新: 2025-05-24)
备注: IEEE International Conference on Robotics and Automation (ICRA), 2024
期刊: IEEE International Conference on Robotics and Automation (ICRA), 2024, pp. 5441-5447
DOI: 10.1109/ICRA57147.2024.10611152
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
ASGrasp:基于主动立体视觉的通用透明物体6自由度抓取检测
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 透明物体抓取 6自由度抓取检测 主动立体视觉 深度学习 域随机化 机器人 点云重建
📋 核心要点
- 现有RGB-D抓取方法依赖深度相机质量和深度恢复网络,难以准确重建透明物体的几何形状,导致抓取失败。
- ASGrasp利用双层学习的立体网络,直接从原始红外和RGB图像重建透明物体几何,实现材质无关的抓取。
- 实验表明,ASGrasp在模拟和真实环境中均达到超过90%的抓取成功率,优于现有方法,并实现sim-to-real迁移。
📝 摘要(中文)
本文旨在解决透明和镜面物体的抓取问题。由于深度相机难以准确恢复其几何形状,该问题在机器人领域尚未得到解决。我们首次提出了ASGrasp,一个使用RGB-D主动立体视觉相机的6自由度抓取检测网络。ASGrasp利用一个双层学习的立体网络进行透明物体重建,从而实现在杂乱环境中对材质不可知的物体抓取。与现有的基于RGB-D的抓取检测方法不同,我们的系统能够直接利用原始红外和RGB图像进行透明物体几何重建,而现有方法严重依赖于深度恢复网络和深度相机生成的深度图的质量。我们通过基于GraspNet-1Billion的域随机化创建了一个广泛的合成数据集。实验表明,ASGrasp在模拟和真实环境中都能实现超过90%的通用透明物体抓取成功率,并通过无缝的sim-to-real迁移。我们的方法显著优于SOTA网络,甚至超过了完美可见点云输入所设定的性能上限。
🔬 方法详解
问题定义:论文旨在解决机器人抓取透明和镜面物体时,由于深度相机无法准确获取其几何信息而导致的抓取失败问题。现有基于RGB-D的抓取检测方法严重依赖深度相机的质量以及深度恢复网络,对于透明物体的重建效果不佳,限制了其在实际场景中的应用。
核心思路:论文的核心思路是利用主动立体视觉相机提供的原始红外(IR)和RGB图像,通过一个学习型的立体匹配网络直接重建透明物体的三维几何形状,避免依赖深度相机提供的深度图。这种方法能够更好地处理透明物体的反射和折射特性,从而获得更准确的几何信息。
技术框架:ASGrasp系统主要包含两个阶段:透明物体重建和6自由度抓取检测。首先,使用一个双层学习的立体网络,输入原始IR和RGB图像,输出透明物体的三维点云。然后,将重建的点云输入到一个6自由度抓取检测网络中,该网络预测抓取姿态和抓取质量。整个系统采用端到端的方式进行训练。
关键创新:该论文的关键创新在于提出了一种基于学习的立体匹配方法,能够直接从原始IR和RGB图像中重建透明物体的几何形状。与传统方法相比,该方法不需要依赖深度相机提供的深度图,从而避免了深度相机在处理透明物体时产生的误差。此外,该方法还通过域随机化技术,实现了从模拟环境到真实环境的无缝迁移。
关键设计:ASGrasp使用一个双层立体匹配网络,第一层用于提取图像特征,第二层用于进行视差估计。损失函数包括点云重建损失和抓取质量损失。为了提高模型的泛化能力,论文采用了域随机化技术,在模拟环境中生成了大量的训练数据,并对物体的材质、光照和背景进行了随机化处理。抓取检测网络采用类似于GraspNet的结构,输出抓取姿态和抓取质量评分。
🖼️ 关键图片
📊 实验亮点
ASGrasp在模拟和真实环境中的透明物体抓取实验中均取得了超过90%的成功率,显著优于现有的SOTA网络。更重要的是,ASGrasp甚至超越了使用完美点云作为输入的性能上限,证明了其在透明物体抓取方面的优越性。通过域随机化,ASGrasp实现了从模拟到真实的无缝迁移,验证了其在实际应用中的可行性。
🎯 应用场景
ASGrasp在工业自动化、物流分拣、家庭服务机器人等领域具有广泛的应用前景。例如,在工业生产线上,机器人可以利用ASGrasp抓取透明的玻璃瓶、塑料容器等物品,实现自动化装配和包装。在家庭环境中,服务机器人可以利用ASGrasp抓取透明的餐具、水杯等物品,完成家务任务。该研究有助于提升机器人对复杂环境的适应能力,推动机器人技术的进一步发展。
📄 摘要(原文)
In this paper, we tackle the problem of grasping transparent and specular objects. This issue holds importance, yet it remains unsolved within the field of robotics due to failure of recover their accurate geometry by depth cameras. For the first time, we propose ASGrasp, a 6-DoF grasp detection network that uses an RGB-D active stereo camera. ASGrasp utilizes a two-layer learning-based stereo network for the purpose of transparent object reconstruction, enabling material-agnostic object grasping in cluttered environments. In contrast to existing RGB-D based grasp detection methods, which heavily depend on depth restoration networks and the quality of depth maps generated by depth cameras, our system distinguishes itself by its ability to directly utilize raw IR and RGB images for transparent object geometry reconstruction. We create an extensive synthetic dataset through domain randomization, which is based on GraspNet-1Billion. Our experiments demonstrate that ASGrasp can achieve over 90% success rate for generalizable transparent object grasping in both simulation and the real via seamless sim-to-real transfer. Our method significantly outperforms SOTA networks and even surpasses the performance upper bound set by perfect visible point cloud inputs.Project page: https://pku-epic.github.io/ASGrasp