Center Direction Network for Grasping Point Localization on Cloths

📄 arXiv: 2408.14456v1 📥 PDF

作者: Domen Tabernik, Jon Muhovič, Matej Urbas, Danijel Skočaj

分类: cs.CV

发布日期: 2024-08-26

备注: Accepted for publication in IEEE Robotics and Automation Letters

DOI: 10.1109/LRA.2024.3455802

🔗 代码/项目: GITHUB


💡 一句话要点

提出CeDiRNet-3DoF,用于解决布料抓取点定位问题,并在ICRA 2023挑战赛中获胜。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 布料抓取 抓取点定位 中心方向回归 深度学习 机器人操作

📋 核心要点

  1. 现有布料抓取方法难以应对其非刚性特性,缺乏有效的抓取点定位方案。
  2. CeDiRNet-3DoF通过中心方向回归和定位网络,实现对布料抓取点的精准预测。
  3. ViCoS Towel数据集的构建,为布料抓取算法的训练和评估提供了标准化的基准。

📝 摘要(中文)

本文提出了一种名为CeDiRNet-3DoF的深度学习模型,用于检测抓取点,特别关注布料等可变形物体。该模型采用中心方向回归与定位网络相结合的方式,在ICRA 2023布料操作挑战赛的感知任务中获得第一名。鉴于文献中缺乏标准化的基准来有效比较方法,我们提出了ViCoS Towel数据集。该数据集包含8000张真实图像和12000张合成图像,为训练和评估当前的数据驱动深度学习方法提供了强大的资源。广泛的评估表明,CeDiRNet-3DoF在真实世界中表现出鲁棒性,优于包括最新的基于Transformer的模型在内的最先进方法。我们的工作弥合了一个关键的差距,为计算机视觉和机器人技术中的布料抓取提供了一个强大的解决方案和基准。

🔬 方法详解

问题定义:论文旨在解决布料等可变形物体抓取中的抓取点定位问题。现有方法难以有效处理布料的非刚性形变,导致抓取成功率低,且缺乏统一的评估基准,难以进行公平比较。

核心思路:论文的核心思路是结合中心方向回归和定位网络,预测抓取点的中心位置和方向。通过中心方向回归,模型能够学习到抓取点周围的上下文信息,从而更好地适应布料的形变。

技术框架:CeDiRNet-3DoF的整体架构包含两个主要模块:中心方向回归模块和定位网络模块。中心方向回归模块预测抓取点的中心位置和方向,定位网络模块则基于中心方向回归的结果,进一步优化抓取点的定位精度。整个流程是先通过中心方向回归粗略定位,再通过定位网络精细调整。

关键创新:该方法最重要的创新点在于将中心方向回归引入到布料抓取点定位任务中。与直接回归抓取点坐标相比,中心方向回归能够更好地捕捉抓取点周围的上下文信息,从而提高模型的鲁棒性。此外,ViCoS Towel数据集的构建也为该领域的研究提供了重要的资源。

关键设计:CeDiRNet-3DoF使用深度卷积神经网络作为其骨干网络。损失函数包括中心位置损失、方向损失和定位损失。中心位置损失采用 Focal Loss,以解决正负样本不平衡问题。方向损失采用 Smooth L1 Loss,以提高回归精度。定位损失采用 L1 Loss,用于优化抓取点的定位精度。网络结构细节和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CeDiRNet-3DoF在ICRA 2023布料操作挑战赛的感知任务中获得第一名,证明了其在真实场景下的有效性。此外,在ViCoS Towel数据集上的评估表明,CeDiRNet-3DoF优于包括最新的基于Transformer的模型在内的最先进方法,展现了其优越的性能。

🎯 应用场景

该研究成果可应用于自动化服装生产、家庭服务机器人、医疗辅助机器人等领域。通过精确的布料抓取,机器人可以完成服装整理、床单铺设、手术衣递送等任务,提高工作效率和服务质量,具有广阔的应用前景。

📄 摘要(原文)

Object grasping is a fundamental challenge in robotics and computer vision, critical for advancing robotic manipulation capabilities. Deformable objects, like fabrics and cloths, pose additional challenges due to their non-rigid nature. In this work, we introduce CeDiRNet-3DoF, a deep-learning model for grasp point detection, with a particular focus on cloth objects. CeDiRNet-3DoF employs center direction regression alongside a localization network, attaining first place in the perception task of ICRA 2023's Cloth Manipulation Challenge. Recognizing the lack of standardized benchmarks in the literature that hinder effective method comparison, we present the ViCoS Towel Dataset. This extensive benchmark dataset comprises 8,000 real and 12,000 synthetic images, serving as a robust resource for training and evaluating contemporary data-driven deep-learning approaches. Extensive evaluation revealed CeDiRNet-3DoF's robustness in real-world performance, outperforming state-of-the-art methods, including the latest transformer-based models. Our work bridges a crucial gap, offering a robust solution and benchmark for cloth grasping in computer vision and robotics. Code and dataset are available at: https://github.com/vicoslab/CeDiRNet-3DoF