Bin-picking of novel objects through category-agnostic-segmentation: RGB matters
作者: Prem Raj, Sachin Bhadang, Gaurav Chaudhary, Laxmidhar Behera, Tushar Sandhan
分类: cs.RO
发布日期: 2023-12-27
备注: Presented at IEEE International Conference on Robotic Computing (IRC), 2023
💡 一句话要点
提出基于类别无关分割的物体抓取方法,提升动态环境下分拣效率
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 类别无关分割 机器人抓取 域随机化 实例分割 透明物体处理
📋 核心要点
- 现有分拣方法泛化性不足,难以处理透明物体,且易受深度传感器噪声影响,导致抓取失败。
- 提出一种基于物体中心实例分割和仿真训练的方法,克服深度传感器噪声,适用于透明和半透明物体。
- 实验结果表明,该方法在真实分拣环境中对不透明物体准确率达98%,对非不透明物体准确率达97%。
📝 摘要(中文)
本文提出了一种用于机器人操作的类别无关实例分割方法,旨在分割与类别无关的物体,从而实现动态环境中多样化的应用,如分拣。现有方法通常缺乏泛化性和物体特定信息,导致抓取失败。我们提出了一种新的方法,利用以物体为中心的实例分割和基于仿真的训练,以有效迁移到真实场景。值得注意的是,我们的策略克服了噪声深度传感器带来的挑战,提高了学习的可靠性。我们的解决方案适用于透明和半透明物体,这些物体在历史上对于基于深度信息的抓取方法来说是困难的。贡献包括用于成功迁移的域随机化、我们收集的用于仓库应用的自定义数据集,以及用于高效分拣的集成框架。我们训练的实例分割模型在WISDOM公共基准[1]和我们创建的自定义数据集上都实现了最先进的性能。在一个真实的具有挑战性的分拣设置中,我们的分拣框架方法对不透明物体的准确率达到98%,对非不透明物体的准确率达到97%,优于最先进的基线方法。
🔬 方法详解
问题定义:论文旨在解决动态环境下,机器人对未知类别物体进行高效、可靠分拣的问题。现有方法依赖于物体的类别信息,泛化性差,难以处理透明或半透明物体,并且容易受到深度传感器噪声的干扰,导致抓取失败。因此,需要一种类别无关、鲁棒性强的实例分割方法,以实现对未知物体的精准抓取。
核心思路:论文的核心思路是利用类别无关的实例分割,直接从RGB图像中分割出独立的物体实例,无需预先知道物体的类别。通过仿真环境中的域随机化训练,提高模型在真实场景中的泛化能力,并克服深度传感器噪声的影响。此外,该方法特别关注透明和半透明物体的处理,使其能够适用于更广泛的应用场景。
技术框架:该分拣框架主要包含以下几个模块:1) RGB图像采集;2) 类别无关实例分割,用于分割出场景中的各个物体实例;3) 抓取姿态估计,根据分割结果估计每个物体的最佳抓取姿态;4) 机器人运动规划与执行,控制机器人完成抓取和放置操作。整个流程以RGB图像为输入,最终输出机器人的抓取动作。
关键创新:该方法最重要的创新点在于其类别无关的实例分割能力,以及对透明和半透明物体的处理。与传统的基于深度信息的抓取方法不同,该方法直接从RGB图像中提取信息,避免了深度传感器噪声的影响,并能够处理透明物体。此外,通过域随机化训练,提高了模型在真实场景中的泛化能力。
关键设计:论文采用了Mask R-CNN作为实例分割的基础网络,并对其进行了改进,使其能够进行类别无关的分割。在训练过程中,使用了大量的合成数据,并通过域随机化技术,模拟了真实场景中的各种光照、纹理和噪声条件。损失函数方面,除了标准的Mask R-CNN损失外,还引入了额外的正则化项,以提高模型的鲁棒性。具体的网络结构和参数设置在论文中有详细描述。
📊 实验亮点
该方法在WISDOM公共基准和自定义数据集上均取得了state-of-the-art的性能。在真实的具有挑战性的分拣环境中,对不透明物体的准确率达到98%,对非不透明物体的准确率达到97%,显著优于现有的基线方法,证明了该方法在实际应用中的有效性和鲁棒性。
🎯 应用场景
该研究成果可广泛应用于自动化仓库、物流分拣、智能制造等领域。通过类别无关的物体分割和抓取,机器人能够处理各种形状、材质和类别的物体,提高分拣效率和灵活性。未来,该技术有望进一步扩展到家庭服务机器人、医疗机器人等领域,实现更智能化的物体操作。
📄 摘要(原文)
This paper addresses category-agnostic instance segmentation for robotic manipulation, focusing on segmenting objects independent of their class to enable versatile applications like bin-picking in dynamic environments. Existing methods often lack generalizability and object-specific information, leading to grasp failures. We present a novel approach leveraging object-centric instance segmentation and simulation-based training for effective transfer to real-world scenarios. Notably, our strategy overcomes challenges posed by noisy depth sensors, enhancing the reliability of learning. Our solution accommodates transparent and semi-transparent objects which are historically difficult for depth-based grasping methods. Contributions include domain randomization for successful transfer, our collected dataset for warehouse applications, and an integrated framework for efficient bin-picking. Our trained instance segmentation model achieves state-of-the-art performance over WISDOM public benchmark [1] and also over the custom-created dataset. In a real-world challenging bin-picking setup our bin-picking framework method achieves 98% accuracy for opaque objects and 97% accuracy for non-opaque objects, outperforming the state-of-the-art baselines with a greater margin.