Optimizing Navigation And Chemical Application in Precision Agriculture With Deep Reinforcement Learning And Conditional Action Tree

📄 arXiv: 2503.17985v1 📥 PDF

作者: Mahsa Khosravi, Zhanhong Jiang, Joshua R Waite, Sarah Jonesc, Hernan Torres, Arti Singh, Baskar Ganapathysubramanian, Asheesh Kumar Singh, Soumik Sarkar

分类: cs.RO, cs.AI

发布日期: 2025-03-23

备注: 32 pages, 9 figures


💡 一句话要点

提出基于深度强化学习和条件动作树的农业机器人导航与喷洒优化方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 精准农业 机器人导航 化学喷洒 分层决策 条件动作掩码 近端策略优化

📋 核心要点

  1. 现有农业机器人导航和喷洒策略存在覆盖率低、化学品浪费等问题,无法有效应对生物胁迫。
  2. 论文提出分层动作掩码近端策略优化(HAM-PPO)方法,通过分层决策优化机器人导航和喷洒。
  3. 实验表明,HAM-PPO在产量恢复和资源效率方面显著优于传统方法,并具有良好的鲁棒性和泛化性。

📝 摘要(中文)

本文提出了一种基于强化学习(RL)的规划方案,用于优化精准农业中生物胁迫的机器人管理。该框架采用具有条件动作掩码的分层决策结构,其中高层动作指导机器人的探索,而低层动作优化其在受影响区域的导航和高效化学喷洒。优化的主要目标包括在有限的电池电量下提高受感染区域的覆盖率,并减少化学品的使用,从而防止对田地健康区域的不必要喷洒。数值实验结果表明,所提出的分层动作掩码近端策略优化(HAM-PPO)方法在产量恢复和资源效率方面显著优于基线实践,例如割草机导航+无差别喷洒(地毯式喷洒)。HAM-PPO在各种感染场景中始终如一地实现了更高的产量恢复百分比和更低的化学品成本。该框架还表现出对观测噪声的鲁棒性和在不同环境条件下的泛化能力,能够适应不同的感染范围和空间分布模式。

🔬 方法详解

问题定义:论文旨在解决精准农业中,如何利用农业机器人更有效地管理生物胁迫,具体来说,就是在有限的电池电量下,如何最大化受感染区域的覆盖率,同时最小化化学品的使用,避免对健康区域的过度喷洒。现有方法,如地毯式喷洒,效率低下且浪费资源。

核心思路:论文的核心思路是采用分层强化学习,将任务分解为高层探索和低层导航/喷洒两个层次。高层策略负责引导机器人探索田地,发现感染区域;低层策略则负责在感染区域内进行精细的导航和喷洒,从而实现更高效的资源利用。条件动作掩码机制用于约束机器人的行为,使其只能在合适的区域执行相应的动作。

技术框架:整体框架包含环境模拟器、高层策略和低层策略三个主要模块。环境模拟器负责模拟田地的感染情况和机器人的状态。高层策略基于当前状态选择探索方向。低层策略则根据高层策略的指令,控制机器人的导航和喷洒行为。整个过程通过强化学习进行训练,目标是最大化产量恢复并最小化化学品成本。

关键创新:论文的关键创新在于提出了分层动作掩码近端策略优化(HAM-PPO)方法。与传统的单层强化学习方法相比,HAM-PPO能够更好地处理复杂的任务,并实现更高效的资源利用。条件动作掩码机制能够有效地约束机器人的行为,避免不必要的喷洒。

关键设计:论文使用了Proximal Policy Optimization (PPO)算法作为强化学习的训练方法。高层策略和低层策略都采用神经网络进行建模。损失函数包括产量恢复奖励和化学品成本惩罚。条件动作掩码机制通过对动作空间进行约束,确保机器人只能在合适的区域执行相应的动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HAM-PPO方法在产量恢复方面显著优于地毯式喷洒等基线方法,并且能够显著降低化学品的使用量。在不同的感染场景和环境条件下,HAM-PPO都表现出良好的鲁棒性和泛化能力。具体而言,HAM-PPO在产量恢复方面平均提升了X%(具体数值未知),化学品使用量平均降低了Y%(具体数值未知)。

🎯 应用场景

该研究成果可应用于精准农业领域,指导农业机器人在田间进行自主导航和精准喷洒,从而提高农作物产量,减少化学品使用,降低农业生产成本,并减少对环境的污染。未来可扩展到其他农业任务,如杂草识别和清除、施肥等。

📄 摘要(原文)

This paper presents a novel reinforcement learning (RL)-based planning scheme for optimized robotic management of biotic stresses in precision agriculture. The framework employs a hierarchical decision-making structure with conditional action masking, where high-level actions direct the robot's exploration, while low-level actions optimize its navigation and efficient chemical spraying in affected areas. The key objectives of optimization include improving the coverage of infected areas with limited battery power and reducing chemical usage, thus preventing unnecessary spraying of healthy areas of the field. Our numerical experimental results demonstrate that the proposed method, Hierarchical Action Masking Proximal Policy Optimization (HAM-PPO), significantly outperforms baseline practices, such as LawnMower navigation + indiscriminate spraying (Carpet Spray), in terms of yield recovery and resource efficiency. HAM-PPO consistently achieves higher yield recovery percentages and lower chemical costs across a range of infection scenarios. The framework also exhibits robustness to observation noise and generalizability under diverse environmental conditions, adapting to varying infection ranges and spatial distribution patterns.