Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning
作者: Arvi Jonnarth, Ola Johansson, Jie Zhao, Michael Felsberg
分类: cs.RO, cs.LG, eess.SY
发布日期: 2024-06-07 (更新: 2025-08-23)
备注: Published in IEEE Access
期刊: IEEE Access, 2025, volume 13, pages 106883-106905
DOI: 10.1109/ACCESS.2025.3581035
💡 一句话要点
提出基于强化学习的覆盖路径规划方法,并成功实现从仿真到真实机器人的迁移。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 覆盖路径规划 强化学习 Sim-to-Real 机器人 在线规划
📋 核心要点
- 现有覆盖路径规划方法在未知环境中存在挑战,需要在线规划,且传统方法路径空间受限,难以适应环境。
- 提出基于强化学习的覆盖路径规划方法,利用边界信息和总变差奖励,鼓励智能体实现完整覆盖。
- 通过半虚拟环境实现sim-to-real迁移,实验表明该方法在仿真和真实机器人上均优于现有方法。
📝 摘要(中文)
覆盖路径规划(CPP)旨在寻找一条能够覆盖受限区域内所有自由空间的路径,其应用范围广泛,从机器人割草到搜索救援。对于已知环境,离线方法可以找到可证明完整的路径,在某些情况下还能找到最优解。然而,未知环境需要在建图过程中进行在线规划。本文研究了连续空间强化学习(RL)在此挑战性问题上的适用性,并提出了一种基于边界的、计算上可行的自我中心地图表示,以及一种基于总变差的新型奖励项,以促进完整覆盖。与现有的经典方法相比,该方法允许灵活的路径空间,并使智能体能够适应特定的环境特征。同时,RL模型在真实机器人系统上的部署是困难的。从头开始训练可能由于收敛时间慢而不可行,而从仿真到现实的迁移(即sim-to-real迁移)本身就是一个关键挑战。我们通过一个半虚拟环境弥合了sim-to-real的差距,该环境包括一个真实的机器人和实时方面,同时利用一个模拟传感器和障碍物来实现环境随机化和自动episode重置。我们研究了适应真实环境需要什么程度的微调。通过大量的实验,我们表明,我们的方法在仿真中超越了以前基于RL的方法和高度专业化的方法在多个CPP变体中的性能。同时,我们的方法成功地迁移到了真实的机器人上。我们的代码实现可以在网上找到。
🔬 方法详解
问题定义:论文旨在解决未知环境下的在线覆盖路径规划问题。现有方法,如传统算法,在路径规划上不够灵活,难以适应复杂环境,且计算成本较高。直接在真实机器人上训练强化学习模型成本高昂且耗时,sim-to-real迁移存在挑战。
核心思路:论文的核心思路是利用强化学习训练智能体,使其能够在未知环境中自主学习最优的覆盖路径。通过设计合适的奖励函数和状态表示,鼓励智能体探索未覆盖区域,并最终实现完全覆盖。同时,采用半虚拟环境进行训练,降低了sim-to-real迁移的难度。
技术框架:整体框架包括以下几个主要模块:1) 环境建模:使用基于边界的自我中心地图表示环境,降低计算复杂度。2) 强化学习智能体:采用深度强化学习算法(具体算法未知)训练智能体,使其学习最优策略。3) 奖励函数设计:设计基于总变差的奖励项,鼓励智能体实现完整覆盖。4) Sim-to-real迁移:通过半虚拟环境,结合真实机器人和模拟传感器,实现从仿真到真实的迁移。
关键创新:论文的关键创新点在于:1) 提出了一种基于边界的自我中心地图表示,降低了计算复杂度,提高了规划效率。2) 设计了一种基于总变差的奖励项,能够有效地引导智能体实现完整覆盖。3) 采用半虚拟环境,简化了sim-to-real迁移过程,降低了训练成本。
关键设计:论文的关键设计包括:1) 自我中心地图表示的具体实现方式,包括边界信息的提取和存储。2) 奖励函数的具体形式,包括总变差的计算方法和权重设置。3) 强化学习算法的选择和参数设置(未知)。4) 半虚拟环境的搭建方式,包括真实机器人和模拟传感器的集成。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在仿真环境中超越了之前的基于强化学习的方法和高度专业化的方法。在多个覆盖路径规划变体中,该方法均取得了更好的性能。更重要的是,该方法成功地迁移到了真实的机器人上,验证了其在实际应用中的可行性。具体的性能提升数据未知。
🎯 应用场景
该研究成果可应用于各种需要自主覆盖的场景,如机器人割草、清洁机器人、农业机器人、搜索救援机器人等。通过强化学习,机器人能够适应不同的环境和任务需求,提高覆盖效率和质量。未来,该技术有望在智慧城市、智能农业、应急救援等领域发挥重要作用。
📄 摘要(原文)
Coverage path planning (CPP) is the problem of finding a path that covers the entire free space of a confined area, with applications ranging from robotic lawn mowing to search-and-rescue. While for known environments, offline methods can find provably complete paths, and in some cases optimal solutions, unknown environments need to be planned online during mapping. We investigate the suitability of continuous-space reinforcement learning (RL) for this challenging problem, and propose a computationally feasible egocentric map representation based on frontiers, as well as a novel reward term based on total variation to promote complete coverage. Compared to existing classical methods, this approach allows for a flexible path space, and enables the agent to adapt to specific environment characteristics. Meanwhile, the deployment of RL models on real robot systems is difficult. Training from scratch may be infeasible due to slow convergence times, while transferring from simulation to reality, i.e. sim-to-real transfer, is a key challenge in itself. We bridge the sim-to-real gap through a semi-virtual environment, including a real robot and real-time aspects, while utilizing a simulated sensor and obstacles to enable environment randomization and automated episode resetting. We investigate what level of fine-tuning is needed for adapting to a realistic setting. Through extensive experiments, we show that our approach surpasses the performance of both previous RL-based approaches and highly specialized methods across multiple CPP variations in simulation. Meanwhile, our method successfully transfers to a real robot. Our code implementation can be found online.