Learning to Prune Branches in Modern Tree-Fruit Orchards

📄 arXiv: 2507.23015v1 📥 PDF

作者: Abhinav Jain, Cindy Grimm, Stefan Lee

分类: cs.RO, cs.LG

发布日期: 2025-07-30


💡 一句话要点

提出基于光流的树枝修剪闭环视觉伺服控制器,用于果园机器人

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人修剪 视觉伺服控制 光流 果园自动化 深度学习

📋 核心要点

  1. 果树修剪是劳动密集型工作,现有方法依赖完整3D重建,成本高昂且效率较低。
  2. 提出一种基于光流的闭环视觉伺服控制器,直接从图像学习修剪策略,无需3D重建。
  3. 在模拟和真实果园中验证了该方法,实现了30%的修剪成功率,展示了零样本迁移能力。

📝 摘要(中文)

本文提出了一种用于机器人修剪的闭环视觉伺服控制器,旨在解决现代高产果园中劳动密集型的树木休眠期修剪问题。该控制器引导切割器在杂乱的树木环境中到达指定的切割点,并确保切割器垂直于树枝。我们使用一种新颖的果园模拟来训练控制器,该模拟捕捉了目标苹果园配置中树枝的几何分布。与需要完整3D重建的传统方法不同,我们的控制器仅使用腕载相机提供的光流图像。我们在模拟和真实环境中部署了我们学习到的策略,以V型棚架栽培的苹果树为例进行了零样本迁移,实现了30%的成功率,约为oracle规划器性能的一半。

🔬 方法详解

问题定义:论文旨在解决果园机器人自主修剪树枝的问题。现有方法通常依赖于对果树进行完整的3D重建,这需要大量的计算资源和时间,并且对环境光照和遮挡敏感。这些痛点限制了机器人修剪在实际果园中的应用。

核心思路:论文的核心思路是利用深度学习直接从视觉信息(光流图像)中学习修剪策略,避免复杂的3D重建过程。通过训练一个闭环视觉伺服控制器,机器人可以根据当前视觉输入动态调整切割器的姿态,从而实现精确的树枝修剪。这种方法降低了对环境感知的要求,提高了修剪的效率和鲁棒性。

技术框架:整体框架包含以下几个主要部分:1) 果园环境模拟器,用于生成大量的训练数据;2) 基于光流的视觉感知模块,从腕载相机获取光流图像;3) 深度神经网络控制器,根据光流图像输出切割器的控制指令;4) 机器人运动控制模块,执行控制指令,驱动切割器到达目标切割点。整个系统构成一个闭环控制系统,可以实时调整切割器的姿态。

关键创新:最重要的技术创新点在于使用光流图像作为控制器的输入,避免了3D重建。光流图像能够反映场景中物体的运动信息,对于机器人导航和操作具有重要意义。此外,论文还提出了一种新颖的果园模拟方法,能够生成逼真的果树结构和光照条件,为控制器的训练提供了高质量的数据。

关键设计:控制器采用深度卷积神经网络,输入为光流图像,输出为切割器的控制指令(例如,平移和旋转速度)。损失函数的设计旨在鼓励控制器将切割器移动到目标切割点,并保持切割器与树枝垂直。具体而言,损失函数包括位置损失、角度损失和正则化项。网络结构和超参数的选择通过实验进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在模拟和真实环境中进行了验证,在真实V型棚架苹果树上实现了30%的修剪成功率,虽然低于oracle规划器(约50%),但证明了基于光流的视觉伺服控制器的有效性。值得注意的是,该方法实现了零样本迁移,即在模拟环境中训练的控制器可以直接应用于真实环境,无需额外的微调。

🎯 应用场景

该研究成果可应用于农业机器人领域,实现果园的自动化管理和精准作业。通过降低人工修剪的成本和提高效率,有助于提高水果产量和质量。未来,该技术还可以扩展到其他类型的果树修剪,以及其他农业操作,如采摘、施肥等,具有广阔的应用前景。

📄 摘要(原文)

Dormant tree pruning is labor-intensive but essential to maintaining modern highly-productive fruit orchards. In this work we present a closed-loop visuomotor controller for robotic pruning. The controller guides the cutter through a cluttered tree environment to reach a specified cut point and ensures the cutters are perpendicular to the branch. We train the controller using a novel orchard simulation that captures the geometric distribution of branches in a target apple orchard configuration. Unlike traditional methods requiring full 3D reconstruction, our controller uses just optical flow images from a wrist-mounted camera. We deploy our learned policy in simulation and the real-world for an example V-Trellis envy tree with zero-shot transfer, achieving a 30% success rate -- approximately half the performance of an oracle planner.