Beyond Specialization: Robust Reinforcement Learning Navigation via Procedural Map Generators
作者: Christian Jestel, Nicolas Bach, Marvin Wiedemann, Jan Finke, Peter Detzner
分类: cs.RO, cs.LG
发布日期: 2026-05-04
备注: This work has been submitted to the IEEE for possible publication
💡 一句话要点
基于程序化地图生成器的鲁棒强化学习导航
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 机器人导航 程序化生成 地图生成 泛化能力 鲁棒性 深度学习
📋 核心要点
- 现有DRL导航策略易于过拟合训练环境,缺乏足够的环境多样性,限制了泛化能力。
- 提出利用程序化地图生成器来创建多样化的训练环境,并系统地比较不同生成器对策略泛化的影响。
- 实验表明,在多种生成器上训练的策略具有更强的泛化能力,并且A*子目标输入是提高鲁棒性的关键因素。
📝 摘要(中文)
深度强化学习(DRL)导航策略通常过度拟合训练环境的结构,因为环境多样性受到设计多样化场景所需的人工成本的限制。虽然程序化地图生成提供了可扩展的多样性,但之前的研究没有系统地比较不同生成器类型如何影响策略泛化。我们将四种保证可导航性的生成器(稀疏、迷宫、图和波函数坍缩)集成到MuRoSim中,这是一个专注于基于激光雷达导航的训练效率的2D模拟器。我们在每个生成器的1000个种子地图上,跨三个训练种子,交叉评估了五种导航策略。结果显示出强烈的非对称跨生成器迁移:在稀疏布局上训练的专家在迷宫上的成功率降至3.3%,而联合生成器集上训练的策略实现了91.5 +/- 1.1%的平均成功率。我们进一步证明,A路径规划器子目标输入是鲁棒性的主要因素,将成功率从90.2 +/- 1.4%的前馈基线提高到98.9 +/- 0.4%,并优于GRU循环,后者仅改善了反应式基线。DRL策略优于经典的Carrot+A控制器,后者仅在低速(1.0 m/s)时与其成功率相匹配,但在2.0 m/s时降至24.9%。这突出了学习到的速度适应性是学习方法的一个决定性优势。在RoboMaster上的真实世界实验证实了在杂乱竞技场中的sim-to-real迁移,而迷宫式布局暴露了循环有助于缓解的剩余失败模式。
🔬 方法详解
问题定义:现有的深度强化学习导航策略在面对新的、未知的环境时,泛化能力较差。这是因为训练环境的多样性不足,导致策略过度拟合了特定的训练场景。手动设计多样化的训练场景成本高昂,难以扩展。因此,如何提高DRL导航策略的鲁棒性和泛化能力,使其能够适应各种不同的环境,是一个重要的研究问题。
核心思路:论文的核心思路是利用程序化地图生成器来自动生成多样化的训练环境。通过在这些多样化的环境中训练DRL导航策略,可以提高策略的鲁棒性和泛化能力。论文比较了不同类型的程序化地图生成器对策略泛化的影响,并发现某些生成器能够产生更有效的训练环境。此外,论文还探索了不同的输入表示和网络结构对策略性能的影响。
技术框架:整体框架包括一个2D模拟器MuRoSim,以及集成的四种程序化地图生成器(稀疏、迷宫、图和波函数坍缩)。DRL智能体在这些生成的地图中进行训练,目标是学会导航到目标位置。论文评估了五种不同的导航策略,包括前馈网络、GRU循环网络以及使用A*路径规划器子目标作为输入的策略。
关键创新:论文的关键创新在于系统地比较了不同程序化地图生成器对DRL导航策略泛化能力的影响。之前的研究通常只关注于使用单一类型的生成器,而没有对不同生成器的效果进行比较。此外,论文还发现A*路径规划器子目标输入是提高策略鲁棒性的关键因素,并且优于传统的GRU循环网络。
关键设计:论文使用了不同的网络结构,包括前馈网络和GRU循环网络。损失函数使用了标准的强化学习损失函数,例如PPO。关键的参数设置包括学习率、折扣因子、探索率等。A子目标输入是将A路径规划器生成的路径点作为DRL智能体的输入,从而引导智能体进行导航。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在联合生成器集上训练的策略实现了91.5 +/- 1.1%的平均成功率,远高于在稀疏布局上训练的专家(3.3%)。A路径规划器子目标输入将成功率从90.2 +/- 1.4%的前馈基线提高到98.9 +/- 0.4%,优于GRU循环网络。DRL策略在低速时优于经典的Carrot+A控制器,并在高速时表现出明显的优势。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、游戏AI等领域。通过程序化生成多样化的训练环境,可以降低DRL策略的训练成本,提高其在真实世界中的应用效果。例如,可以用于训练能够在复杂环境中自主导航的机器人,或者用于开发更智能的游戏AI。
📄 摘要(原文)
Deep reinforcement learning (DRL) navigation policies often overfit to the structure of their training environments, as environmental diversity is typically constrained by the manual effort required to design diverse scenarios. While procedural map generation offers scalable diversity, no prior work systematically compares how different generator types affect policy generalization. We integrate four generators (sparse, maze, graph, and Wave Function Collapse) with guaranteed navigability into MuRoSim, a 2D simulator focusing on training efficiency for LiDAR-based navigation. We cross-evaluate five navigation policies on 1000 seeded maps per generator across three training seeds. Results show a strongly asymmetric cross-generator transfer: a specialist trained on sparse layouts falls to 3.3% success on mazes, whereas a policy trained on the combined generator set achieves 91.5 +/- 1.1% mean success. We further demonstrate that A path-planner subgoal inputs are the dominant factor for robustness, raising success from the 90.2 +/- 1.4% feedforward baseline to 98.9 +/- 0.4% and outperforming GRU recurrence, which only improves the reactive baseline. The DRL policies outperform a classical Carrot+A controller, which matches their success only at low speeds (1.0 m/s) but collapses to 24.9% at 2.0 m/s. This highlights learned speed adaptation as the decisive advantage of the learned approach. Real-world experiments on a RoboMaster confirm sim-to-real transfer in a cluttered arena, while a maze-like layout exposes remaining failure modes that recurrence helps mitigate.