YOLO11 and Vision Transformers based 3D Pose Estimation of Immature Green Fruits in Commercial Apple Orchards for Robotic Thinning

📄 arXiv: 2410.19846v3 📥 PDF

作者: Ranjan Sapkota, Manoj Karkee

分类: cs.CV

发布日期: 2024-10-21 (更新: 2025-03-31)

备注: 24 Pages, 13 Figures, 1 Table


💡 一句话要点

提出基于YOLO11与Vision Transformer的苹果幼果三维姿态估计方法,用于机器人疏果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维姿态估计 YOLO11 Vision Transformer 机器人疏果 苹果幼果检测 深度估计 农业机器人 目标检测

📋 核心要点

  1. 现有方法在复杂果园环境中对幼果进行精确三维姿态估计存在挑战,影响了机器人疏果的效率。
  2. 该研究结合YOLO11进行目标检测与姿态估计,并利用Vision Transformers进行深度估计,从而实现精确的三维姿态估计。
  3. 实验结果表明,YOLO11n在精度和速度上表现出色,Depth Anything V2在深度估计方面优于DPT,整体方案有效。

📝 摘要(中文)

本研究开发了一种稳健的苹果幼果三维姿态估计方法,用于商业果园中的机器人疏果。该方法结合了YOLO11目标检测和姿态估计算法以及Vision Transformers (ViT) 用于深度估计 (Dense Prediction Transformer (DPT) 和 Depth Anything V2)。在对象检测和姿态估计方面,对YOLO11 (YOLO11n, YOLO11s, YOLO11m, YOLO11l 和 YOLO11x) 和 YOLOv8 (YOLOv8n, YOLOv8s, YOLOv8m, YOLOv8l 和 YOLOv8x) 的性能在相同的超参数设置下进行了比较。结果表明,YOLO11n 在 box 精度和姿态精度方面优于 YOLO11 和 YOLOv8 的所有配置,分别达到 0.91 和 0.915 的分数。相反,YOLOv8n 表现出最高的 box 和姿态召回率,分别为 0.905 和 0.925。在 50% 交并比 (mAP@50) 的平均精度方面,YOLO11s 以 0.94 的 box mAP@50 分数领先所有配置,而 YOLOv8n 实现了最高的姿态 mAP@50 分数 0.96。在图像处理速度方面,YOLO11n 的推理速度为 2.7 毫秒,优于所有配置,明显快于最快的 YOLOv8 配置 YOLOv8n 的 7.8 毫秒。ViT 用于绿色水果姿态深度估计的后续集成表明,Depth Anything V2 在 3D 姿态长度验证中优于 Dense Prediction Transformer,实现了最低的均方根误差 (RMSE) 1.52 和平均绝对误差 (MAE) 1.28,证明了在估计未成熟绿色水果长度方面的卓越精度。YOLO11 和 Depth Anything 模型的集成为机器人疏果应用中的未成熟绿色水果的 3D 姿态估计提供了一个有希望的解决方案。

🔬 方法详解

问题定义:论文旨在解决商业苹果园中幼果的三维姿态估计问题,以便为机器人疏果提供精确的定位信息。现有方法在复杂环境(光照变化、遮挡等)下,难以实现高精度和高效率的姿态估计,限制了机器人疏果的实际应用。

核心思路:论文的核心思路是将目标检测与姿态估计任务与深度估计任务相结合。首先使用YOLO11或YOLOv8检测并定位幼果,同时估计其二维姿态。然后,利用Vision Transformers (ViT) 模型(DPT或Depth Anything V2)进行深度估计,将二维姿态信息转换为三维姿态信息。这种结合的方式可以充分利用不同模型的优势,提高整体的姿态估计精度。

技术框架:整体框架包含两个主要模块:1) 基于YOLO11或YOLOv8的目标检测与姿态估计模块;2) 基于Vision Transformer的深度估计模块。首先,输入图像经过YOLO模块,输出幼果的边界框和关键点坐标。然后,将图像输入到ViT模型中,得到深度图。最后,结合YOLO模块输出的关键点坐标和深度图,计算出幼果的三维姿态信息。

关键创新:该论文的关键创新在于将YOLO11(或YOLOv8)与Vision Transformer模型相结合,用于幼果的三维姿态估计。与传统的基于RGB-D相机的方法相比,该方法仅使用RGB图像,降低了成本和复杂性。此外,通过比较不同版本的YOLO和ViT模型,选择了性能最优的组合(YOLO11n和Depth Anything V2)。

关键设计:在YOLO模块中,作者比较了不同大小的YOLO11和YOLOv8模型(n, s, m, l, x),并选择了YOLO11n,因为它在精度和速度之间取得了较好的平衡。在ViT模块中,作者比较了DPT和Depth Anything V2,最终选择了Depth Anything V2,因为它在深度估计方面表现更好(RMSE和MAE更低)。超参数设置保持一致,以确保公平的性能比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,YOLO11n在目标检测和姿态估计方面表现出色,box精度和姿态精度均达到0.91以上,推理速度仅为2.7ms。Depth Anything V2在深度估计方面优于DPT,RMSE为1.52,MAE为1.28。YOLO11n与Depth Anything V2的结合为幼果三维姿态估计提供了一种高效且精确的解决方案。

🎯 应用场景

该研究成果可应用于农业机器人领域,特别是机器人疏果。精确的三维姿态估计能够帮助机器人准确地识别和定位幼果,从而实现高效、精准的疏果作业。这有助于提高苹果的产量和质量,降低人工成本,并推动农业智能化发展。未来,该技术还可扩展到其他水果或农作物的采摘和管理。

📄 摘要(原文)

In this study, a robust method for 3D pose estimation of immature green apples (fruitlets) in commercial orchards was developed, utilizing the YOLO11(or YOLOv11) object detection and pose estimation algorithm alongside Vision Transformers (ViT) for depth estimation (Dense Prediction Transformer (DPT) and Depth Anything V2). For object detection and pose estimation, performance comparisons of YOLO11 (YOLO11n, YOLO11s, YOLO11m, YOLO11l and YOLO11x) and YOLOv8 (YOLOv8n, YOLOv8s, YOLOv8m, YOLOv8l and YOLOv8x) were made under identical hyperparameter settings among the all configurations. It was observed that YOLO11n surpassed all configurations of YOLO11 and YOLOv8 in terms of box precision and pose precision, achieving scores of 0.91 and 0.915, respectively. Conversely, YOLOv8n exhibited the highest box and pose recall scores of 0.905 and 0.925, respectively. Regarding the mean average precision at 50\% intersection over union (mAP@50), YOLO11s led all configurations with a box mAP@50 score of 0.94, while YOLOv8n achieved the highest pose mAP@50 score of 0.96. In terms of image processing speed, YOLO11n outperformed all configurations with an impressive inference speed of 2.7 ms, significantly faster than the quickest YOLOv8 configuration, YOLOv8n, which processed images in 7.8 ms. Subsequent integration of ViTs for the green fruit's pose depth estimation revealed that Depth Anything V2 outperformed Dense Prediction Transformer in 3D pose length validation, achieving the lowest Root Mean Square Error (RMSE) of 1.52 and Mean Absolute Error (MAE) of 1.28, demonstrating exceptional precision in estimating immature green fruit lengths. Integration of YOLO11 and Depth Anything Model provides a promising solution to 3D pose estimation of immature green fruits for robotic thinning applications. (YOLOv11 pose detection, YOLOv11 Pose, YOLOv11 Keypoints detection, YOLOv11 pose estimation)