Foundation Model-Based Apple Ripeness and Size Estimation for Selective Harvesting
作者: Keyi Zhu, Jiajia Li, Kaixiang Zhang, Chaaran Arunachalam, Siddhartha Bhattacharya, Renfu Lu, Zhaojian Li
分类: cs.CV
发布日期: 2025-02-03
DOI: 10.1016/j.compag.2025.110407
💡 一句话要点
提出基于Foundation Model的苹果成熟度与尺寸估计方法,用于选择性采摘。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 苹果采摘 成熟度估计 尺寸估计 Foundation Model Grounding-DINO RGBD图像 选择性采摘
📋 核心要点
- 现有采摘技术无法区分苹果的成熟度和尺寸,导致非选择性采摘,降低了采摘效率和果品质量。
- 提出基于Foundation Model的苹果成熟度与尺寸估计框架,利用Grounding-DINO进行苹果检测和成熟度分类。
- 构建了包含4027张图像和16257个带注释苹果的Fuji-Ripeness-Size数据集,并公开了数据集和算法。
📝 摘要(中文)
采摘是果树产业中的一项关键任务,需要大量的人工和成本,并且工人面临潜在的危险。自动采摘技术的最新进展提供了一个有希望的解决方案,通过在紧凑的采摘窗口内实现高效、经济和符合人体工程学的水果采摘。然而,现有的采摘技术通常不加选择地采摘所有可见和可及的水果,包括那些未成熟或尺寸不足的水果。本研究介绍了一种新颖的基于基础模型的苹果成熟度和尺寸估计框架。具体来说,我们整理了两个公开的基于RGBD的富士苹果图像数据集,整合了基于水果颜色和图像捕获日期的扩展成熟度注释(“成熟”与“未成熟”)。由此产生的综合数据集Fuji-Ripeness-Size Dataset包含4,027张图像和16,257个带有成熟度和尺寸标签的带注释的苹果。使用基于语言模型的对象检测器Grounding-DINO,我们实现了强大的苹果检测和成熟度分类,优于其他最先进的模型。此外,我们开发并评估了六种尺寸估计算法,选择误差和变化最小的一种以获得最佳性能。Fuji-Ripeness-Size Dataset以及苹果检测和尺寸估计算法已公开提供,这为未来自动和选择性采摘的研究提供了有价值的基准。
🔬 方法详解
问题定义:论文旨在解决苹果采摘过程中无法区分成熟苹果和未成熟苹果的问题。现有技术通常采用一刀切的方式,采摘所有可见的苹果,导致未成熟或尺寸不达标的苹果也被采摘,降低了采摘效率和果品质量。因此,需要一种能够准确估计苹果成熟度和尺寸的方法,以实现选择性采摘。
核心思路:论文的核心思路是利用Foundation Model强大的视觉理解能力,特别是Grounding-DINO在零样本物体检测方面的优势,来实现苹果的精准检测和成熟度分类。同时,结合RGBD图像的深度信息,开发尺寸估计算法,从而为选择性采摘提供依据。
技术框架:整体框架包括以下几个主要步骤:1) 构建并公开Fuji-Ripeness-Size数据集,该数据集包含RGBD图像以及苹果的成熟度和尺寸标注;2) 使用Grounding-DINO进行苹果检测和成熟度分类;3) 开发并评估多种尺寸估计算法,选择最优算法;4) 将检测、分类和尺寸估计结果结合,用于指导选择性采摘。
关键创新:论文的关键创新在于:1) 将Foundation Model应用于苹果成熟度和尺寸估计,利用Grounding-DINO的零样本检测能力,减少了对大量标注数据的依赖;2) 构建了包含RGBD信息的苹果数据集,为后续研究提供了基准;3) 提出了多种尺寸估计算法,并进行了详细的评估和比较。
关键设计:在成熟度分类方面,利用Grounding-DINO直接进行“Ripe”和“Unripe”的分类。在尺寸估计方面,论文开发并评估了六种算法,包括基于深度信息的直接估计、基于像素面积的估计等。最终选择误差和方差最小的算法作为最优算法。数据集的标注质量也至关重要,论文对苹果的成熟度和尺寸进行了精细标注。
🖼️ 关键图片
📊 实验亮点
论文构建的Fuji-Ripeness-Size数据集包含4027张图像和16257个带注释的苹果,为相关研究提供了宝贵的数据资源。实验结果表明,基于Grounding-DINO的苹果检测和成熟度分类方法优于其他state-of-the-art模型。同时,论文对六种尺寸估计算法进行了评估,并选择了最优算法,为苹果尺寸的准确估计提供了有效方案。
🎯 应用场景
该研究成果可应用于智能农业领域,特别是自动采摘机器人。通过准确估计苹果的成熟度和尺寸,机器人可以实现选择性采摘,提高采摘效率和果品质量,降低人工成本。此外,该技术还可以扩展到其他果树的采摘,具有广泛的应用前景。
📄 摘要(原文)
Harvesting is a critical task in the tree fruit industry, demanding extensive manual labor and substantial costs, and exposing workers to potential hazards. Recent advances in automated harvesting offer a promising solution by enabling efficient, cost-effective, and ergonomic fruit picking within tight harvesting windows. However, existing harvesting technologies often indiscriminately harvest all visible and accessible fruits, including those that are unripe or undersized. This study introduces a novel foundation model-based framework for efficient apple ripeness and size estimation. Specifically, we curated two public RGBD-based Fuji apple image datasets, integrating expanded annotations for ripeness ("Ripe" vs. "Unripe") based on fruit color and image capture dates. The resulting comprehensive dataset, Fuji-Ripeness-Size Dataset, includes 4,027 images and 16,257 annotated apples with ripeness and size labels. Using Grounding-DINO, a language-model-based object detector, we achieved robust apple detection and ripeness classification, outperforming other state-of-the-art models. Additionally, we developed and evaluated six size estimation algorithms, selecting the one with the lowest error and variation for optimal performance. The Fuji-Ripeness-Size Dataset and the apple detection and size estimation algorithms are made publicly available, which provides valuable benchmarks for future studies in automated and selective harvesting.