FruitNeRF++: A Generalized Multi-Fruit Counting Method Utilizing Contrastive Learning and Neural Radiance Fields
作者: Lukas Meyer, Andrei-Timotei Ardelean, Tim Weyrich, Marc Stamminger
分类: cs.CV, cs.LG
发布日期: 2025-05-26
备注: for project website, see https://meyerls.github.io/fruit_nerfpp
💡 一句话要点
FruitNeRF++:利用对比学习和神经辐射场实现通用多水果计数
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经辐射场 水果计数 对比学习 实例分割 视觉基础模型 智慧农业 多目标检测
📋 核心要点
- 现有FruitNeRF方法依赖于特定水果类型的调整,限制了其通用性和实际应用。
- FruitNeRF++通过引入实例掩码和对比学习,构建与形状无关的多水果计数框架。
- 实验表明,FruitNeRF++在合成和真实数据集上均表现良好,且更易于控制。
📝 摘要(中文)
本文提出FruitNeRF++,一种新颖的水果计数方法,它结合了对比学习与神经辐射场,用于从果园的非结构化照片中计数水果。该研究基于FruitNeRF,后者采用神经语义场结合特定于水果的聚类方法。FruitNeRF需要针对每种水果类型进行调整,这限制了其适用性,并使其在实践中难以使用。为了消除这一限制,我们设计了一个与形状无关的多水果计数框架,该框架使用视觉基础模型预测的实例掩码来补充RGB和语义数据。这些掩码用于将每个水果的身份编码为神经实例场中的实例嵌入。通过对神经场进行体采样,我们提取嵌入了实例特征的点云,可以以与水果无关的方式对其进行聚类以获得水果计数。我们使用包含苹果、李子、柠檬、梨、桃子和芒果的合成数据集以及真实世界的基准苹果数据集评估了我们的方法。结果表明,FruitNeRF++更易于控制,并且与其他最先进的方法相比具有优势。
🔬 方法详解
问题定义:现有FruitNeRF方法需要针对每种水果类型进行单独调整,这限制了其通用性和可扩展性。在实际应用中,果园中往往存在多种水果,为每种水果都训练一个模型是不现实的。因此,需要一种能够处理多种水果,且无需针对每种水果进行单独训练的水果计数方法。
核心思路:FruitNeRF++的核心思路是利用视觉基础模型生成的实例掩码,将每个水果的身份信息编码为神经实例场中的实例嵌入。通过对比学习,使得同一水果的实例嵌入在特征空间中更加接近,不同水果的实例嵌入则更加远离。这样,就可以在特征空间中对水果进行聚类,从而实现与水果类型无关的计数。
技术框架:FruitNeRF++的整体框架包括以下几个主要阶段:1) 使用视觉基础模型(如SAM)生成图像中每个水果的实例掩码;2) 将RGB图像、语义信息和实例掩码输入到神经辐射场中,构建神经实例场;3) 通过体采样神经实例场,提取嵌入了实例特征的点云;4) 在特征空间中对点云进行聚类,得到水果的计数结果。
关键创新:FruitNeRF++的关键创新在于:1) 引入了实例掩码,将每个水果的身份信息编码到神经实例场中;2) 使用对比学习,增强了同一水果实例嵌入的相似性,提高了聚类的准确性;3) 提出了一个与形状无关的多水果计数框架,无需针对每种水果进行单独训练。
关键设计:在神经辐射场中,除了传统的RGB和语义信息外,还加入了实例嵌入。实例嵌入通过一个小的MLP网络生成,该网络的输入是实例掩码。对比损失函数用于训练实例嵌入,使得同一水果的实例嵌入在特征空间中更加接近。聚类算法采用DBSCAN,该算法可以自动确定聚类的数量,无需手动设置。
🖼️ 关键图片
📊 实验亮点
FruitNeRF++在合成数据集和真实苹果数据集上进行了评估。在合成数据集上,FruitNeRF++能够准确地计数多种水果,证明了其通用性。在真实苹果数据集上,FruitNeRF++的计数精度与现有方法相当,但无需针对苹果进行单独训练,展示了其易用性。
🎯 应用场景
FruitNeRF++可应用于智慧农业领域,例如果园产量估计、水果生长监测和自动化采摘。通过精确的水果计数,可以帮助农民更好地管理果园,提高产量和效率。此外,该技术还可以扩展到其他类似场景,例如农作物计数、工业零件计数等。
📄 摘要(原文)
We introduce FruitNeRF++, a novel fruit-counting approach that combines contrastive learning with neural radiance fields to count fruits from unstructured input photographs of orchards. Our work is based on FruitNeRF, which employs a neural semantic field combined with a fruit-specific clustering approach. The requirement for adaptation for each fruit type limits the applicability of the method, and makes it difficult to use in practice. To lift this limitation, we design a shape-agnostic multi-fruit counting framework, that complements the RGB and semantic data with instance masks predicted by a vision foundation model. The masks are used to encode the identity of each fruit as instance embeddings into a neural instance field. By volumetrically sampling the neural fields, we extract a point cloud embedded with the instance features, which can be clustered in a fruit-agnostic manner to obtain the fruit count. We evaluate our approach using a synthetic dataset containing apples, plums, lemons, pears, peaches, and mangoes, as well as a real-world benchmark apple dataset. Our results demonstrate that FruitNeRF++ is easier to control and compares favorably to other state-of-the-art methods.