Sparse 3D Perception for Rose Harvesting Robots: A Two-Stage Approach Bridging Simulation and Real-World Applications

作者: Taha Samavati, Mohsen Soryani, Sina Mansouri

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-07-28

💡 一句话要点

提出一种稀疏3D感知方法，用于玫瑰采摘机器人，解决真实数据稀缺问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 机器人采摘 3D感知 深度估计 合成数据 农业自动化

📋 核心要点

人工采摘玫瑰效率低，难以满足日益增长的需求，亟需自动化解决方案。
提出一种两阶段方法，利用2D点检测和轻量级深度学习进行深度估计，实现玫瑰中心点的3D定位。
使用Blender生成逼真合成数据集，有效降低了数据标注成本，并在真实数据上取得了较好的效果。

📝 摘要（中文）

为了应对人口增长带来的药用植物（如大马士革玫瑰）需求激增，并解决人工采摘效率低的瓶颈问题，我们提出了一种新颖的3D感知流程，专为花卉采摘机器人设计，重点在于玫瑰中心点的稀疏3D定位。该算法分为两个阶段：首先对立体图像进行基于2D点的检测，然后使用轻量级深度神经网络进行深度估计。为了克服真实世界标记数据稀缺的挑战，我们引入了一个通过Blender生成的逼真合成数据集，模拟了具有精确3D注释的动态玫瑰农场环境。这种方法最大限度地降低了手动标记成本，同时实现了稳健的模型训练。我们评估了两种深度估计方法：传统的基于三角测量的方案和我们提出的深度学习框架。结果表明，我们的方法更优越，在2D检测中实现了95.6%（合成数据）和74.4%（真实数据）的F1分数，并且在合成数据上2米范围内的深度估计误差为3%。该流程针对计算效率进行了优化，确保与资源受限的机器人系统兼容。通过弥合合成数据和真实世界数据之间的领域差距，这项工作推进了特种作物的农业自动化，为精准采摘提供了可扩展的解决方案。

🔬 方法详解

问题定义：论文旨在解决玫瑰采摘机器人中，如何准确、高效地进行玫瑰花朵的3D定位问题。现有方法依赖大量真实标注数据，成本高昂，且难以泛化到不同的玫瑰品种和生长环境。此外，计算资源有限的机器人平台对算法的效率提出了更高的要求。

核心思路：论文的核心思路是利用合成数据来训练深度学习模型，从而减少对真实标注数据的依赖。通过逼真的玫瑰农场环境模拟，生成带有精确3D标注的数据集，用于训练深度估计网络。同时，采用两阶段方法，先进行2D检测，再进行深度估计，降低了深度估计的难度。

技术框架：该方法包含两个主要阶段：1) 2D点检测：使用立体图像作为输入，检测玫瑰花朵中心点的2D位置。2) 深度估计：利用轻量级深度神经网络，根据2D检测结果和立体图像信息，估计玫瑰花朵中心点的深度信息。整个流程针对计算效率进行了优化，以适应机器人平台的资源限制。

关键创新：该论文的关键创新在于利用合成数据进行深度学习模型的训练，有效解决了真实数据稀缺的问题。通过Blender构建逼真的玫瑰农场环境，并生成带有精确3D标注的数据集，为深度学习模型的训练提供了充足的数据。此外，两阶段方法的设计也降低了深度估计的难度，提高了算法的整体性能。

关键设计：在2D点检测阶段，采用了基于点的检测方法，具体实现细节未知。在深度估计阶段，设计了一个轻量级的深度神经网络，网络结构未知，但强调了计算效率。损失函数和训练策略未知，但提到了深度估计误差作为评估指标。

🖼️ 关键图片

📊 实验亮点

该方法在合成数据集上实现了95.6%的2D检测F1分数，在真实数据集上实现了74.4%的F1分数。在合成数据上，2米范围内的深度估计误差为3%。这些结果表明，该方法在玫瑰花朵的3D定位方面具有较高的精度和鲁棒性。与传统的基于三角测量的深度估计方法相比，该方法具有更好的性能。

🎯 应用场景

该研究成果可应用于农业机器人领域，特别是花卉、水果等特种作物的自动化采摘。通过降低对人工标注数据的依赖，可以加速农业机器人的研发和部署，提高采摘效率，降低劳动力成本，并最终促进农业生产的智能化和可持续发展。该方法也可能扩展到其他需要3D感知的机器人应用中，例如环境监测、灾害救援等。

📄 摘要（原文）

The global demand for medicinal plants, such as Damask roses, has surged with population growth, yet labor-intensive harvesting remains a bottleneck for scalability. To address this, we propose a novel 3D perception pipeline tailored for flower-harvesting robots, focusing on sparse 3D localization of rose centers. Our two-stage algorithm first performs 2D point-based detection on stereo images, followed by depth estimation using a lightweight deep neural network. To overcome the challenge of scarce real-world labeled data, we introduce a photorealistic synthetic dataset generated via Blender, simulating a dynamic rose farm environment with precise 3D annotations. This approach minimizes manual labeling costs while enabling robust model training. We evaluate two depth estimation paradigms: a traditional triangulation-based method and our proposed deep learning framework. Results demonstrate the superiority of our method, achieving an F1 score of 95.6% (synthetic) and 74.4% (real) in 2D detection, with a depth estimation error of 3% at a 2-meter range on synthetic data. The pipeline is optimized for computational efficiency, ensuring compatibility with resource-constrained robotic systems. By bridging the domain gap between synthetic and real-world data, this work advances agricultural automation for specialty crops, offering a scalable solution for precision harvesting.

Sparse 3D Perception for Rose Harvesting Robots: A Two-Stage Approach Bridging Simulation and Real-World Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理