UAV-based path planning for efficient localization of non-uniformly distributed weeds using prior knowledge: A reinforcement-learning approach
作者: Rick van Essen, Eldert van Henten, Gert Kootstra
分类: cs.RO
发布日期: 2024-12-16 (更新: 2025-06-27)
期刊: Computers and Electronics in Agriculture 237 (2025) 1-14
DOI: 10.1016/j.compag.2025.110651
💡 一句话要点
提出基于深度强化学习的无人机路径规划方法,用于高效定位农田中非均匀分布的杂草。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无人机 路径规划 深度强化学习 杂草定位 精准农业
📋 核心要点
- 传统无人机杂草定位通常采用耗时的逐行飞行路径,效率较低,难以适应杂草非均匀分布的情况。
- 本文提出一种基于深度强化学习的路径规划方法,结合先验知识和实时检测,引导无人机高效搜索杂草。
- 实验表明,该方法在非均匀杂草分布下优于传统逐行路径,且对检测误差和先验知识质量具有较强的鲁棒性。
📝 摘要(中文)
本文提出了一种基于深度强化学习的路径规划方法,旨在利用无人机以最短飞行路径高效定位农田中杂草。该方法融合了包含不确定性低分辨率杂草位置的先验知识以及飞行中的杂草检测结果。搜索策略通过深度Q学习进行训练。我们在仿真环境中训练智能体,全面评估杂草分布、感知系统的典型误差、先验知识以及不同停止准则对规划器性能的影响。结果表明,当杂草在田间非均匀分布时,该智能体比逐行路径更快地找到杂草,展示了其学习和利用杂草分布的能力。检测误差和先验知识质量对性能影响较小,表明学习到的搜索策略对检测误差具有鲁棒性,并且不需要详细的先验知识。智能体还学会了终止搜索。为了测试学习到的策略在真实场景中的可迁移性,该规划器在真实图像数据上进行了测试,无需进一步训练,结果显示,与逐行路径相比,路径缩短了66%,但找到的杂草比例降低了10%。论文全面讨论了规划器在实际应用中的优缺点,并为进一步发展提供了方向。总的来说,结论是学习到的搜索策略可以提高使用无人机寻找非均匀分布杂草的效率,并显示出在农业实践中使用的潜力。
🔬 方法详解
问题定义:论文旨在解决无人机在农田中高效定位非均匀分布杂草的问题。传统方法如逐行扫描效率低下,无法有效利用杂草分布的先验知识,且易受感知误差影响。
核心思路:论文的核心思路是利用深度强化学习训练一个智能体,使其能够根据杂草分布的先验知识和无人机实时检测到的杂草信息,动态规划最优搜索路径,从而最小化飞行距离并最大化杂草检出率。
技术框架:整体框架包含以下几个主要模块:1) 环境模拟器,用于生成包含杂草分布、感知误差等的仿真环境;2) 深度Q网络(DQN),作为智能体的策略网络,用于学习最优搜索策略;3) 奖励函数,用于引导智能体学习高效的搜索行为,例如找到杂草获得正奖励,飞行距离增加则获得负奖励;4) 停止准则,用于判断何时停止搜索,避免不必要的飞行。
关键创新:最重要的创新点在于将深度强化学习应用于无人机杂草定位的路径规划问题,并结合了先验知识和实时检测信息。与传统方法相比,该方法能够自适应地学习最优搜索策略,从而提高搜索效率和鲁棒性。
关键设计:论文使用深度Q学习算法训练智能体,状态空间包括无人机当前位置、已探索区域、杂草分布先验知识等,动作空间包括无人机的飞行方向和距离。奖励函数的设计至关重要,需要平衡飞行距离和杂草检出率。此外,停止准则也需要仔细设计,以避免过度搜索或过早停止。
🖼️ 关键图片
📊 实验亮点
在仿真实验中,该方法在非均匀杂草分布下优于传统的逐行路径。在真实图像数据上的测试表明,与逐行路径相比,该方法可以将路径长度缩短66%,但找到的杂草比例降低了10%。这表明该方法具有一定的泛化能力,但在实际应用中仍需进一步优化。
🎯 应用场景
该研究成果可应用于精准农业领域,通过无人机搭载的视觉系统和智能路径规划算法,实现对农田杂草的精准定位和清除,从而减少农药使用,降低农业生产成本,提高农作物产量和质量。未来还可扩展到其他农业场景,如病虫害监测、作物长势评估等。
📄 摘要(原文)
UAVs are becoming popular in agriculture, however, they usually use time-consuming row-by-row flight paths. This paper presents a deep-reinforcement-learning-based approach for path planning to efficiently localize weeds in agricultural fields using UAVs with minimal flight-path length. The method combines prior knowledge about the field containing uncertain, low-resolution weed locations with in-flight weed detections. The search policy was learned using deep Q-learning. We trained the agent in simulation, allowing a thorough evaluation of the weed distribution, typical errors in the perception system, prior knowledge, and different stopping criteria on the planner's performance. When weeds were non-uniformly distributed over the field, the agent found them faster than a row-by-row path, showing its capability to learn and exploit the weed distribution. Detection errors and prior knowledge quality had a minor effect on the performance, indicating that the learned search policy was robust to detection errors and did not need detailed prior knowledge. The agent also learned to terminate the search. To test the transferability of the learned policy to a real-world scenario, the planner was tested on real-world image data without further training, which showed a 66% shorter path compared to a row-by-row path at the cost of a 10% lower percentage of found weeds. Strengths and weaknesses of the planner for practical application are comprehensively discussed, and directions for further development are provided. Overall, it is concluded that the learned search policy can improve the efficiency of finding non-uniformly distributed weeds using a UAV and shows potential for use in agricultural practice.