OrchardDepth: Precise Metric Depth Estimation of Orchard Scene from Monocular Camera Images

📄 arXiv: 2502.14279v1 📥 PDF

作者: Zhichao Zheng, Henry Williams, Bruce A MacDonald

分类: cs.CV

发布日期: 2025-02-20

备注: 10 pages, 5 figures, Australasian Conference on Robotics and Automation, ACRA, 2024


💡 一句话要点

OrchardDepth:单目相机果园场景精确度量深度估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 果园场景 数据集构建 一致性正则化 再训练方法

📋 核心要点

  1. 现有单目深度估计研究多集中于城市环境,缺乏针对果园等农业场景的有效方法。
  2. OrchardDepth旨在填补果园场景单目深度估计的空白,并提出新的再训练方法。
  3. 实验结果表明,该方法显著降低了果园场景深度估计的RMSE,验证了其有效性。

📝 摘要(中文)

单目深度估计是机器人感知中的一项基础任务。近年来,随着更准确、更鲁棒的神经网络模型和不同类型数据集的发展,单目深度估计的性能和效率得到了显著提高。然而,该领域的大部分研究都集中在非常集中的领域。特别是,大多数户外场景的基准测试都属于城市环境,旨在改进自动驾驶设备,这些基准测试与果园/葡萄园环境存在巨大差异,对第一产业的研究几乎没有帮助。因此,我们提出了OrchardDepth,填补了果园/葡萄园环境中单目相机度量深度估计的空白。此外,我们提出了一种新的再训练方法,通过监测稠密深度图和稀疏点之间的一致性正则化来改善训练结果。我们的方法将果园环境中深度估计的RMSE从1.5337降低到0.6738,证明了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决果园/葡萄园等农业场景下,单目相机深度估计精度不足的问题。现有方法和数据集主要针对城市环境设计,无法直接应用于农业场景,导致深度估计误差较大。

核心思路:论文的核心思路是针对果园场景的特点,构建新的数据集OrchardDepth,并提出一种新的再训练方法,该方法通过监测稠密深度图和稀疏点之间的一致性正则化来提升深度估计的精度和鲁棒性。

技术框架:论文的技术框架主要包含两个部分:一是构建果园场景的单目深度数据集OrchardDepth;二是提出一种基于一致性正则化的再训练方法。该方法首先使用现有的深度估计模型在OrchardDepth数据集上进行预训练,然后通过监测稠密深度图和稀疏点之间的一致性,对模型进行微调。

关键创新:论文的关键创新在于:1) 构建了专门针对果园/葡萄园环境的单目深度数据集OrchardDepth,填补了该领域的空白;2) 提出了一种基于一致性正则化的再训练方法,该方法能够有效地利用稠密深度图和稀疏点之间的信息,提升深度估计的精度。

关键设计:论文的关键设计包括:1) 数据集构建方面,考虑了果园场景的光照变化、遮挡等因素,保证了数据的多样性和真实性;2) 再训练方法方面,设计了一致性正则化损失函数,用于约束稠密深度图和稀疏点之间的差异,并采用自适应权重调整策略,平衡不同损失项的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OrchardDepth方法在果园场景下显著提升了单目深度估计的精度。具体而言,该方法将深度估计的RMSE从1.5337降低到0.6738,相比于现有方法,性能提升显著,验证了该方法在果园场景下的有效性。

🎯 应用场景

该研究成果可应用于农业机器人、智能农机等领域,例如,可用于果园巡检机器人进行果树识别、果实定位和采摘,也可用于农机自动导航和避障。高精度的深度估计能够提升农业生产的自动化水平,降低人工成本,提高生产效率,并为精准农业提供技术支持。

📄 摘要(原文)

Monocular depth estimation is a rudimentary task in robotic perception. Recently, with the development of more accurate and robust neural network models and different types of datasets, monocular depth estimation has significantly improved performance and efficiency. However, most of the research in this area focuses on very concentrated domains. In particular, most of the benchmarks in outdoor scenarios belong to urban environments for the improvement of autonomous driving devices, and these benchmarks have a massive disparity with the orchard/vineyard environment, which is hardly helpful for research in the primary industry. Therefore, we propose OrchardDepth, which fills the gap in the estimation of the metric depth of the monocular camera in the orchard/vineyard environment. In addition, we present a new retraining method to improve the training result by monitoring the consistent regularization between dense depth maps and sparse points. Our method improves the RMSE of depth estimation in the orchard environment from 1.5337 to 0.6738, proving our method's validation.