AppleGrowthVision: A large-scale stereo dataset for phenological analysis, fruit detection, and 3D reconstruction in apple orchards

📄 arXiv: 2505.14029v1 📥 PDF

作者: Laura-Sophia von Hirschhausen, Jannes S. Magnusson, Mykyta Kovalenko, Fredrik Boye, Tanay Rawat, Peter Eisert, Anna Hilsmann, Sebastian Pretzsch, Sebastian Bosse

分类: cs.CV, cs.AI

发布日期: 2025-05-20


💡 一句话要点

AppleGrowthVision:用于苹果园物候分析、果实检测和3D重建的大规模立体数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 苹果园 立体视觉 数据集 果实检测 3D重建 精准农业 物候分析

📋 核心要点

  1. 现有苹果园监测数据集缺乏多样性、真实性,难以标注密集异构场景,且忽略了不同生长阶段和立体图像。
  2. AppleGrowthVision数据集包含立体图像和密集标注,覆盖苹果生长周期中的多个阶段,旨在促进果实检测、3D重建等任务。
  3. 实验表明,该数据集能有效提升YOLOv8和Faster R-CNN等模型的性能,并能高精度预测苹果的BBCH生长阶段。

📝 摘要(中文)

深度学习已经改变了计算机视觉在精准农业中的应用,但苹果园监测仍然受到数据集的限制。现有数据集缺乏多样性、真实性,且难以对密集、异构的场景进行标注。此外,现有数据集忽略了不同的生长阶段和立体图像,而这两者对于苹果园的真实3D建模以及果实定位、产量估计和结构分析等任务至关重要。为了解决这些问题,我们提出了AppleGrowthVision,一个包含两个子集的大规模数据集。第一个子集包含来自德国勃兰登堡州农场的9317张高分辨率立体图像,涵盖了整个生长周期中的六个农业验证的生长阶段。第二个子集包含来自勃兰登堡州和皮尔尼茨农场的1125张密集标注图像,总共包含31084个苹果标签。AppleGrowthVision提供具有农业验证生长阶段的立体图像数据,从而实现精确的物候分析和3D重建。通过将我们的数据扩展到MinneApple,YOLOv8的F1分数提高了7.69%,而将其添加到MinneApple和MAD中,Faster R-CNN的F1分数提高了31.06%。此外,使用VGG16、ResNet152、DenseNet201和MobileNetv2预测六个BBCH阶段的准确率超过95%。AppleGrowthVision通过支持开发用于精准农业中果实检测、生长建模和3D分析的鲁棒模型,弥合了农业科学和计算机视觉之间的差距。未来的工作包括改进注释、增强3D重建以及扩展所有生长阶段的多模态分析。

🔬 方法详解

问题定义:现有苹果园图像数据集在规模、多样性和标注质量上存在不足,难以支持精准的果实检测、生长建模和3D重建等任务。特别是缺乏覆盖完整生长周期、包含立体图像的数据集,限制了相关算法的开发和应用。现有方法难以有效处理苹果园场景的复杂性和异构性。

核心思路:论文的核心思路是构建一个大规模、高质量的苹果园立体图像数据集,该数据集覆盖苹果的多个生长阶段,并提供密集的果实标注。通过提供更真实、更全面的数据,促进开发更鲁棒、更精确的计算机视觉算法,从而提升苹果园管理的智能化水平。

技术框架:AppleGrowthVision数据集包含两个子集:一个是包含9317张高分辨率立体图像的子集,覆盖六个农业验证的生长阶段;另一个是包含1125张密集标注图像的子集,总共包含31084个苹果标签。数据集的构建流程包括数据采集、图像预处理、人工标注和数据验证等步骤。论文还利用该数据集对现有的目标检测和分类模型进行了评估。

关键创新:该数据集的关键创新在于其规模、多样性和立体图像的引入。与现有数据集相比,AppleGrowthVision提供了更全面的苹果生长周期覆盖,以及更真实的3D信息,这对于开发更精确的果实检测、生长建模和3D重建算法至关重要。此外,数据集的标注质量也经过了严格的验证,确保了数据的可靠性。

关键设计:数据集的图像采集采用了高分辨率立体相机,以获取高质量的立体图像对。标注过程采用了专业的标注工具,并由经验丰富的标注人员进行标注。为了保证标注质量,采用了多轮审核和验证机制。在实验评估中,论文采用了常用的目标检测和分类模型,并使用了标准的评估指标,如F1分数和准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,将AppleGrowthVision数据集扩展到MinneApple数据集后,YOLOv8的F1分数提高了7.69%,添加到MinneApple和MAD数据集后,Faster R-CNN的F1分数提高了31.06%。此外,使用VGG16、ResNet152、DenseNet201和MobileNetv2等模型预测六个BBCH阶段的准确率超过95%,验证了数据集的有效性和价值。

🎯 应用场景

该研究成果可广泛应用于精准农业领域,例如果实自动检测、产量预测、生长监测、机器人采摘等。通过利用该数据集训练的模型,可以实现对苹果园的智能化管理,提高生产效率,降低人工成本,并为农业生产决策提供科学依据。未来,该数据集还可扩展到其他果树或农作物,推动精准农业的进一步发展。

📄 摘要(原文)

Deep learning has transformed computer vision for precision agriculture, yet apple orchard monitoring remains limited by dataset constraints. The lack of diverse, realistic datasets and the difficulty of annotating dense, heterogeneous scenes. Existing datasets overlook different growth stages and stereo imagery, both essential for realistic 3D modeling of orchards and tasks like fruit localization, yield estimation, and structural analysis. To address these gaps, we present AppleGrowthVision, a large-scale dataset comprising two subsets. The first includes 9,317 high resolution stereo images collected from a farm in Brandenburg (Germany), covering six agriculturally validated growth stages over a full growth cycle. The second subset consists of 1,125 densely annotated images from the same farm in Brandenburg and one in Pillnitz (Germany), containing a total of 31,084 apple labels. AppleGrowthVision provides stereo-image data with agriculturally validated growth stages, enabling precise phenological analysis and 3D reconstructions. Extending MinneApple with our data improves YOLOv8 performance by 7.69 % in terms of F1-score, while adding it to MinneApple and MAD boosts Faster R-CNN F1-score by 31.06 %. Additionally, six BBCH stages were predicted with over 95 % accuracy using VGG16, ResNet152, DenseNet201, and MobileNetv2. AppleGrowthVision bridges the gap between agricultural science and computer vision, by enabling the development of robust models for fruit detection, growth modeling, and 3D analysis in precision agriculture. Future work includes improving annotation, enhancing 3D reconstruction, and extending multimodal analysis across all growth stages.