Enhancing annotations for 5D apple pose estimation through 3D Gaussian Splatting (3DGS)
作者: Robert van de Ven, Trim Bresilla, Bram Nelissen, Ard Nieuwenhuizen, Eldert J. van Henten, Gert Kootstra
分类: cs.CV, cs.RO
发布日期: 2025-12-23
备注: 33 pages, excluding appendices. 17 figures
💡 一句话要点
利用3D高斯溅射增强5D苹果姿态估计的标注效率
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 苹果姿态估计 3D高斯溅射 数据增强 智能农业 自动化标注
📋 核心要点
- 现有苹果姿态估计方法依赖大量人工标注,而果园环境遮挡严重,导致标注困难且易出错。
- 该论文提出利用3D高斯溅射重建果园场景,简化标注流程,并自动生成大量训练标签。
- 实验表明,该方法显著减少了人工标注工作量(减少99.6%),并提升了姿态估计的F1得分。
📝 摘要(中文)
果园环境变化大且遮挡严重,使得果园自动化任务极具挑战。苹果姿态估计是其中一个难题,果萼等关键点常被遮挡。虽然最新的姿态估计方法不再依赖这些关键点,但仍需标注,这使得标注工作充满挑战且耗时。由于遮挡,同一苹果在不同图像中的标注可能存在冲突或缺失。本研究提出一种新颖的流水线,利用3D高斯溅射重建果园场景,简化标注流程,自动将标注投影到图像上,并训练和评估姿态估计方法。该流水线仅需105个手动标注即可获得28,191个训练标签,减少了99.6%的工作量。实验结果表明,使用遮挡率≤95%的苹果标签进行训练可获得最佳性能,在原始图像上的F1得分为0.927,在渲染图像上的F1得分为0.970。训练数据集大小的调整对模型性能影响不大。遮挡最少的苹果的位置估计效果最好,遮挡越多,效果越差。此外,测试的姿态估计方法无法正确学习苹果的朝向估计。
🔬 方法详解
问题定义:论文旨在解决果园环境下苹果姿态估计中,由于遮挡导致的人工标注成本高、效率低的问题。现有方法需要大量精确的关键点标注,但在实际场景中,苹果经常被树叶或其它苹果遮挡,使得标注工作非常耗时且容易出错。
核心思路:论文的核心思路是利用3D高斯溅射(3DGS)技术重建果园场景的三维模型,然后在三维模型上进行标注,再将这些标注自动投影到二维图像上,从而生成大量的训练数据。这种方法避免了直接在二维图像上进行繁琐的标注工作。
技术框架:该流水线包含以下几个主要阶段:1) 使用多视角图像重建果园场景的3D高斯溅射模型;2) 在3D高斯溅射模型上进行少量人工标注;3) 将3D标注自动投影到原始2D图像上,生成大量的训练标签;4) 使用生成的训练标签训练苹果姿态估计模型;5) 在真实图像和渲染图像上评估模型性能。
关键创新:该方法最重要的创新点在于利用3D重建技术简化了标注流程,实现了从少量人工标注到大量训练数据的自动生成。与传统的直接在二维图像上标注的方法相比,该方法大大降低了人工成本,并提高了标注的准确性。
关键设计:论文的关键设计包括:使用3D高斯溅射进行场景重建,这是一种高效且准确的三维重建方法;设计了自动投影算法,将3D标注准确地映射到2D图像上;实验中探索了不同遮挡程度的苹果对模型训练的影响,并发现使用遮挡率≤95%的苹果标签进行训练可获得最佳性能。具体使用的姿态估计方法未明确说明,但可以替换为其他方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法仅需105个手动标注即可生成28,191个训练标签,标注工作量减少了99.6%。使用遮挡率≤95%的苹果标签进行训练,在原始图像上的F1得分为0.927,在渲染图像上的F1得分为0.970。这表明该方法生成的标签质量较高,能够有效提升姿态估计模型的性能。
🎯 应用场景
该研究成果可应用于智能农业领域,例如自动化采摘机器人、产量预测系统等。通过降低苹果姿态估计的标注成本,可以加速相关算法的开发和部署,提高农业生产效率,并减少对人工的依赖。未来,该方法还可以推广到其他农作物或复杂场景的姿态估计任务中。
📄 摘要(原文)
Automating tasks in orchards is challenging because of the large amount of variation in the environment and occlusions. One of the challenges is apple pose estimation, where key points, such as the calyx, are often occluded. Recently developed pose estimation methods no longer rely on these key points, but still require them for annotations, making annotating challenging and time-consuming. Due to the abovementioned occlusions, there can be conflicting and missing annotations of the same fruit between different images. Novel 3D reconstruction methods can be used to simplify annotating and enlarge datasets. We propose a novel pipeline consisting of 3D Gaussian Splatting to reconstruct an orchard scene, simplified annotations, automated projection of the annotations to images, and the training and evaluation of a pose estimation method. Using our pipeline, 105 manual annotations were required to obtain 28,191 training labels, a reduction of 99.6%. Experimental results indicated that training with labels of fruits that are $\leq95\%$ occluded resulted in the best performance, with a neutral F1 score of 0.927 on the original images and 0.970 on the rendered images. Adjusting the size of the training dataset had small effects on the model performance in terms of F1 score and pose estimation accuracy. It was found that the least occluded fruits had the best position estimation, which worsened as the fruits became more occluded. It was also found that the tested pose estimation method was unable to correctly learn the orientation estimation of apples.