Real-Time Branch-to-Tool Distance Estimation for Autonomous UAV Pruning: Benchmarking Five DEFOM-Stereo Variants from Simulation to Jetson Deployment

📄 arXiv: 2603.26250v1 📥 PDF

作者: Yida Lin, Bing Xue, Mengjie Zhang, Sam Schofield, Richard Green

分类: cs.CV

发布日期: 2026-03-27


💡 一句话要点

针对无人机自主修剪,提出DEFOM-Stereo变体,实现实时分支距离估计。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机 自主修剪 立体视觉 深度估计 嵌入式部署

📋 核心要点

  1. 无人机自主修剪面临实时性和安全性的挑战,需要精确估计工具与树枝的距离,现有方法难以兼顾精度和速度。
  2. 论文提出基于DEFOM-Stereo的变体,通过任务特定的合成数据训练,优化模型在嵌入式设备上的推理速度。
  3. 实验表明,DEFOM-PrunePlus在Jetson Orin上实现了可接受的精度和帧率,为实际部署提供了可能。

📝 摘要(中文)

本文针对无人机自主修剪树木这一安全攸关的现实任务,提出了一种基于基础模型的立体匹配方法DEFOM-Stereo的五种变体。该方法旨在实时估计切割工具与细树枝之间的距离,以便无人机能够安全地接近、对齐和启动修剪器。研究人员在Unreal Engine 5中构建了一个任务特定的合成数据集,包含5520个立体图像对,并使用EXR深度图提供精确的空间完整监督。实验结果表明,DEFOM-Stereo ViT-S在合成测试集上实现了最佳的深度域精度,但其在NVIDIA Jetson Orin上的推理速度过慢。新提出的平衡变体DEFOM-PrunePlus在精度和速度之间取得了最佳的平衡,其帧率足以进行实时引导,深度精度足以支持安全的树枝接近规划。零样本推理验证了全容量模型在真实照片上的几何保持能力。研究表明DEFOM-PrunePlus为机载距离估计提供了最实用的精度-延迟平衡。

🔬 方法详解

问题定义:无人机自主修剪任务需要实时且精确地估计切割工具与树枝之间的距离,以避免碰撞。现有的立体视觉方法在嵌入式平台上运行时,往往难以同时满足精度和速度的要求,尤其是在处理细小树枝等复杂场景时。

核心思路:论文的核心思路是利用预训练的基础模型DEFOM-Stereo,并通过任务特定的合成数据进行微调,以提高其在树枝距离估计任务上的精度。同时,通过模型剪枝和结构优化,降低模型的计算复杂度,从而提高其在嵌入式设备上的推理速度。

技术框架:整体框架包括以下几个主要步骤:1) 使用Unreal Engine 5构建包含树木和无人机场景的合成数据集,并生成精确的深度图作为监督信息。2) 选择DEFOM-Stereo作为基础模型,并设计五种不同的变体,包括ViT-S、PrunePlus、PruneStereo和PruneNano等。3) 使用合成数据集对这些变体进行训练和微调。4) 将训练好的模型部署到NVIDIA Jetson Orin上进行推理测试,评估其精度和速度。5) 在真实照片上进行零样本推理,验证模型的泛化能力。

关键创新:论文的关键创新在于针对无人机修剪任务,对DEFOM-Stereo模型进行了定制化的优化,提出了兼顾精度和速度的DEFOM-PrunePlus变体。此外,论文还构建了一个高质量的合成数据集,为训练和评估模型提供了可靠的数据基础。

关键设计:论文的关键设计包括:1) 使用EXR格式的深度图提供精确的空间完整监督。2) 设计了不同的模型变体,通过调整模型大小和结构,探索精度和速度之间的平衡。3) 针对Jetson Orin平台进行了优化,以提高模型的推理速度。4) 使用深度MAE、EPE、D1-all和delta-1等指标评估模型的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DEFOM-Stereo ViT-S在合成测试集上实现了最佳的深度域精度(EPE 1.74 px, D1-all 5.81%, delta-1 95.90%, depth MAE 23.40 cm)。DEFOM-PrunePlus在Jetson Orin上实现了约3.3 FPS的帧率,同时保持了较好的深度精度(EPE 5.87 px, depth MAE 64.26 cm, delta-1 87.59%),为实际部署提供了可能。零样本推理验证了模型在真实照片上的泛化能力。

🎯 应用场景

该研究成果可应用于农业机器人、林业自动化等领域,实现无人机自主修剪、果树管理等任务。通过精确的距离估计,可以提高修剪效率,降低人工成本,并减少人员在高危环境下的作业风险。未来,该技术有望推广到其他需要精确三维感知的机器人应用场景。

📄 摘要(原文)

Autonomous tree pruning with unmanned aerial vehicles (UAVs) is a safety-critical real-world task: the onboard perception system must estimate the metric distance from a cutting tool to thin tree branches in real time so that the UAV can approach, align, and actuate the pruner without collision. We address this problem by training five variants of DEFOM-Stereo - a recent foundation-model-based stereo matcher - on a task-specific synthetic dataset and deploying the checkpoints on an NVIDIA Jetson Orin Super 16 GB. The training corpus is built in Unreal Engine 5 with a simulated ZED Mini stereo camera capturing 5,520 stereo pairs across 115 tree instances from three viewpoints at 2m distance; dense EXR depth maps provide exact, spatially complete supervision for thin branches. On the synthetic test set, DEFOM-Stereo ViT-S achieves the best depth-domain accuracy (EPE 1.74 px, D1-all 5.81%, delta-1 95.90%, depth MAE 23.40 cm) but its Jetson inference speed of ~2.2 FPS (~450 ms per frame) remains too slow for responsive closed-loop tool control. A newly introduced balanced variant, DEFOM-PrunePlus (~21M backbone, ~3.3 FPS on Jetson), offers the best deployable accuracy-speed trade-off (EPE 5.87 px, depth MAE 64.26 cm, delta-1 87.59%): its frame rate is sufficient for real-time guidance and its depth accuracy supports safe branch approach planning at the 2m operating range. The lightweight DEFOM-PruneStereo (~6.9 FPS) and DEFOM-PruneNano (~8.5 FPS) run fast but sacrifice substantial accuracy (depth MAE > 57 cm), making estimates too unreliable for safe actuation. Zero-shot inference on real photographs confirms that full-capacity models preserve branch geometry, validating the sim-to-real transfer. We conclude that DEFOM-PrunePlus provides the most practical accuracy-latency balance for onboard distance estimation, while ViT-S serves as the reference for future hardware.