Single-Shot 6DoF Pose and 3D Size Estimation for Robotic Strawberry Harvesting

📄 arXiv: 2410.03031v1 📥 PDF

作者: Lun Li, Hamidreza Kasaei

分类: cs.RO

发布日期: 2024-10-03

备注: Accepted at IROS 2024


💡 一句话要点

提出基于深度学习的草莓6DoF位姿与3D尺寸单次估计方法,提升机器人采摘效率

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 6DoF位姿估计 3D尺寸估计 机器人采摘 深度学习 合成数据 域随机化 目标检测

📋 核心要点

  1. 现有机器人采摘草莓方法在位姿估计和尺寸测量方面存在精度和效率瓶颈,难以适应复杂环境。
  2. 利用合成数据训练深度学习模型,结合域随机化和草莓对称性,实现高精度6DoF位姿和3D尺寸估计。
  3. 实验表明,该模型在模拟和真实数据集上均表现良好,具有快速推理速度和较强的遮挡处理能力。

📝 摘要(中文)

本研究提出了一种深度学习方法,用于确定草莓的6DoF位姿和3D尺寸,旨在显著提高机器人采摘效率。该模型在Ignition Gazebo模拟器中自动生成的合成草莓数据集上进行训练,特别关注草莓固有的对称性。通过利用域随机化技术,该模型表现出卓越的性能,在模拟数据集上实现了84.77%的3D交并比(IoU)平均精度(AP)。通过在真实数据集上测试我们的模型进行的实证评估,强调了该模型在真实草莓采摘场景中的可行性,即使其训练基于合成数据。该模型还表现出强大的遮挡处理能力,即使草莓被其他草莓或树叶遮挡,也能保持准确的检测能力。此外,该模型还表现出非常快的推理速度,达到每秒60帧(FPS)。

🔬 方法详解

问题定义:论文旨在解决机器人草莓采摘过程中,准确高效地估计草莓的6DoF位姿和3D尺寸的问题。现有方法通常依赖于复杂的传感器设置或耗时的图像处理算法,难以满足实时性和鲁棒性的要求,尤其是在存在遮挡和光照变化的情况下。

核心思路:论文的核心思路是利用深度学习方法,直接从单张图像中预测草莓的6DoF位姿和3D尺寸。通过在合成数据上进行训练,并采用域随机化技术,使模型能够泛化到真实场景中。同时,利用草莓的对称性作为先验知识,提高位姿估计的准确性。

技术框架:整体框架是一个单阶段的目标检测与位姿估计网络。该网络以单张RGB图像作为输入,输出每个草莓的类别、3D bounding box以及6DoF位姿。网络包含特征提取模块、目标检测模块和位姿估计模块。特征提取模块负责提取图像的特征表示,目标检测模块负责检测图像中的草莓,位姿估计模块负责估计每个草莓的6DoF位姿。

关键创新:该论文的关键创新在于:1) 使用合成数据进行训练,降低了数据采集成本;2) 采用域随机化技术,提高了模型在真实场景中的泛化能力;3) 利用草莓的对称性作为先验知识,提高了位姿估计的准确性;4) 实现单阶段的6DoF位姿和3D尺寸估计,提高了推理速度。

关键设计:论文使用Ignition Gazebo模拟器生成合成草莓数据集,并对光照、纹理、背景等进行随机化处理。位姿估计模块采用回归的方式,直接预测旋转矩阵和平移向量。损失函数包括目标检测损失、位姿损失和尺寸损失。网络结构基于YOLOv5进行改进,以适应6DoF位姿估计的任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在模拟数据集上实现了84.77%的3D IoU平均精度(AP),表明其在合成数据上的有效性。在真实数据集上的测试也验证了其在实际场景中的可行性,尽管训练数据是合成的。此外,该模型达到了60 FPS的推理速度,满足了实时性要求,并展现出较强的遮挡处理能力,使其在复杂环境中也能保持较高的检测精度。

🎯 应用场景

该研究成果可应用于智能农业领域,特别是机器人草莓采摘。通过准确估计草莓的位姿和尺寸,机器人可以更精确地抓取草莓,提高采摘效率,降低损伤率。此外,该方法还可以扩展到其他水果和蔬菜的采摘,推动农业自动化发展。未来,结合视觉伺服控制,有望实现更智能化的采摘系统。

📄 摘要(原文)

In this study, we introduce a deep-learning approach for determining both the 6DoF pose and 3D size of strawberries, aiming to significantly augment robotic harvesting efficiency. Our model was trained on a synthetic strawberry dataset, which is automatically generated within the Ignition Gazebo simulator, with a specific focus on the inherent symmetry exhibited by strawberries. By leveraging domain randomization techniques, the model demonstrated exceptional performance, achieving an 84.77\% average precision (AP) of 3D Intersection over Union (IoU) scores on the simulated dataset. Empirical evaluations, conducted by testing our model on real-world datasets, underscored the model's viability for real-world strawberry harvesting scenarios, even though its training was based on synthetic data. The model also exhibited robust occlusion handling abilities, maintaining accurate detection capabilities even when strawberries were obscured by other strawberries or foliage. Additionally, the model showcased remarkably swift inference speeds, reaching up to 60 frames per second (FPS).