Critic-Free Deep Reinforcement Learning for Maritime Coverage Path Planning on Irregular Hexagonal Grids
作者: Carlos S. Sepúlveda, Gonzalo A. Ruz
分类: cs.LG, cs.AI, cs.NE, cs.RO
发布日期: 2026-03-30
💡 一句话要点
提出一种无Critic的深度强化学习方法,用于解决复杂海域的覆盖路径规划问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 覆盖路径规划 深度强化学习 Transformer网络 无Critic学习 海事应用
📋 核心要点
- 传统覆盖路径规划方法在处理复杂海域时面临挑战,如不规则海岸线和计算量大的重规划。
- 论文提出基于Transformer的指针网络和无Critic的组相对策略优化,直接优化策略。
- 实验表明,该方法在哈密顿成功率、路径长度和航向变化方面均优于现有方法,且满足实时性要求。
📝 摘要(中文)
本文提出了一种深度强化学习框架,用于解决不规则海域六边形网格表示下的覆盖路径规划(CPP)问题。传统CPP方法难以处理不规则海岸线、岛屿和禁区,或者需要为每个实例进行计算量大的重新规划。与传统方法不同,本文将问题建模为神经组合优化任务,其中基于Transformer的指针网络自回归地构建覆盖路径。为了克服长程路径问题中价值估计的不稳定性,本文实现了一种无Critic的组相对策略优化(GRPO)方案,该方法通过对采样轨迹的实例内比较来估计优势,而不是依赖于价值函数。在1000个未见过的合成海域环境上的实验表明,训练后的策略实现了99.0%的哈密顿成功率,是最佳启发式方法(46.0%)的两倍以上,同时产生的路径比最接近的基线短7%,航向变化少24%。所有三种推理模式(贪婪、随机抽样和带有2-opt细化的抽样)在笔记本电脑GPU上的每个实例运行时间均低于50毫秒,证实了实时车载部署的可行性。
🔬 方法详解
问题定义:论文旨在解决复杂海域环境下的覆盖路径规划问题。传统方法在处理不规则几何形状(如海岸线、岛屿)时,需要复杂的分解技术,或者需要针对每个新环境进行耗时的重新规划。这些方法难以满足实际应用中对效率和适应性的需求。
核心思路:论文的核心思路是将覆盖路径规划问题转化为一个神经组合优化问题,并使用深度强化学习直接学习策略。通过训练一个能够自回归生成路径的策略网络,避免了传统方法中复杂的分解和重规划过程。此外,采用无Critic的组相对策略优化方法,克服了长程规划中价值函数估计不准确的问题。
技术框架:整体框架包括以下几个主要模块:1) 将海域环境表示为六边形网格;2) 使用基于Transformer的指针网络作为策略网络,该网络接收当前状态(已访问的网格单元)作为输入,并输出下一个要访问的网格单元的概率分布;3) 使用组相对策略优化(GRPO)算法训练策略网络,该算法通过比较同一实例中不同采样轨迹的性能来估计优势函数,无需依赖价值函数。
关键创新:最重要的技术创新点在于使用无Critic的组相对策略优化(GRPO)方法。与传统的基于Actor-Critic的强化学习方法不同,GRPO避免了价值函数的估计,从而减少了训练过程中的不稳定性。通过直接比较同一实例中不同轨迹的性能,GRPO能够更准确地估计优势函数,从而提高策略学习的效率和稳定性。
关键设计:策略网络采用基于Transformer的指针网络结构,能够有效地处理序列数据,并学习网格单元之间的依赖关系。GRPO算法的关键在于如何定义和计算组相对优势。论文中,优势函数通过比较同一实例中不同采样轨迹的奖励之和来估计。此外,论文还采用了2-opt局部搜索算法对生成的路径进行优化,进一步提高了路径的质量。实验中,使用了1000个合成海域环境进行训练和测试,并评估了策略在不同推理模式下的性能(贪婪、随机抽样和带有2-opt细化的抽样)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在1000个未见过的合成海域环境中,哈密顿成功率达到99.0%,远高于最佳启发式方法(46.0%)。同时,生成的路径比最接近的基线短7%,航向变化少24%。所有推理模式在笔记本电脑GPU上的运行时间均低于50毫秒,满足实时性要求。
🎯 应用场景
该研究成果可应用于多种海事任务,如搜救行动、环境监测、非法捕捞巡逻等。通过快速生成高效的覆盖路径,可以提高任务效率,降低运营成本。未来,该方法可以扩展到其他类型的覆盖路径规划问题,例如无人机巡检、机器人清扫等。
📄 摘要(原文)
Maritime surveillance missions, such as search and rescue and environmental monitoring, rely on the efficient allocation of sensing assets over vast and geometrically complex areas. Traditional Coverage Path Planning (CPP) approaches depend on decomposition techniques that struggle with irregular coastlines, islands, and exclusion zones, or require computationally expensive re-planning for every instance. We propose a Deep Reinforcement Learning (DRL) framework to solve CPP on hexagonal grid representations of irregular maritime areas. Unlike conventional methods, we formulate the problem as a neural combinatorial optimization task where a Transformer-based pointer policy autoregressively constructs coverage tours. To overcome the instability of value estimation in long-horizon routing problems, we implement a critic-free Group-Relative Policy Optimization (GRPO) scheme. This method estimates advantages through within-instance comparisons of sampled trajectories rather than relying on a value function. Experiments on 1,000 unseen synthetic maritime environments demonstrate that a trained policy achieves a 99.0% Hamiltonian success rate, more than double the best heuristic (46.0%), while producing paths 7% shorter and with 24% fewer heading changes than the closest baseline. All three inference modes (greedy, stochastic sampling, and sampling with 2-opt refinement) operate under 50~ms per instance on a laptop GPU, confirming feasibility for real-time on-board deployment.