Learning to Sample: Reinforcement Learning-Guided Sampling for Autonomous Vehicle Motion Planning

📄 arXiv: 2509.24313v1 📥 PDF

作者: Korbinian Moller, Roland Stroop, Mattia Piccinini, Alexander Langmann, Johannes Betz

分类: cs.RO

发布日期: 2025-09-29

备注: 8 pages, submitted to the IEEE ICRA 2026, Vienna, Austria

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于强化学习引导采样的运动规划方法,提升自动驾驶在复杂城市环境中的决策效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 运动规划 强化学习 采样方法 深度学习 世界模型 决策控制

📋 核心要点

  1. 在复杂的城市环境中,传统的基于采样的运动规划方法由于均匀或启发式采样,会产生大量不可行或不相关的轨迹,效率低下。
  2. 论文提出一种混合框架,利用强化学习智能体引导采样过程,使其集中在更有可能产生可行轨迹的区域,从而提高采样效率。
  3. 实验结果表明,该方法在保持规划质量的同时,显著减少了所需样本数量和运行时间,提升了自动驾驶车辆在城市环境中的决策效率。

📝 摘要(中文)

本文提出了一种混合框架,用于解决自动驾驶中基于采样的运动规划在复杂城市环境中效率低下的问题。该框架利用强化学习(RL)智能体引导采样过程,使其集中在更有可能产生可行轨迹的动作空间区域,同时保持轨迹生成和评估的解析性和可验证性。RL采样器与基于可解码深度集编码器的世界模型(WM)相结合,能够处理可变数量的交通参与者并重建潜在表示。在CommonRoad仿真环境中进行的评估表明,该方法在保持规划质量(成功率和无碰撞率)的同时,所需样本数量减少高达99%,运行时间减少高达84%。这些改进使得自动驾驶车辆在城市环境中能够更快、更可靠地做出决策,从而在实际约束下实现更安全、更灵敏的导航。

🔬 方法详解

问题定义:自动驾驶车辆在复杂城市环境中进行运动规划时,基于采样的规划方法面临挑战。传统的均匀或启发式采样策略会生成大量无效或不相关的轨迹,导致计算资源浪费和决策速度降低。现有方法难以在保证规划质量(成功率和无碰撞率)的前提下,提高采样效率和规划速度。

核心思路:论文的核心思路是利用强化学习(RL)来学习一个采样策略,该策略能够引导采样过程集中在更有可能产生可行轨迹的动作空间区域。通过学习环境的动态特性和约束条件,RL智能体可以预测哪些区域的采样更有可能成功,从而减少无效采样,提高规划效率。这种方法将学习到的先验知识融入到采样过程中,避免了盲目搜索。

技术框架:该框架包含两个主要模块:RL采样器和世界模型(WM)。世界模型基于可解码深度集编码器,用于编码交通场景信息,并提供环境的潜在表示。RL采样器以世界模型的输出作为输入,学习一个采样策略,用于指导轨迹生成。轨迹生成和评估仍然采用解析方法,确保轨迹的可行性和安全性。整体流程是:首先,世界模型编码交通场景;然后,RL采样器根据世界模型的输出生成采样分布;接着,从采样分布中生成轨迹;最后,对轨迹进行评估和选择。

关键创新:该方法最重要的技术创新点是将强化学习与基于采样的运动规划相结合,利用RL学习一个自适应的采样策略。与传统的均匀或启发式采样方法相比,该方法能够根据环境的动态特性和约束条件,动态调整采样分布,从而提高采样效率和规划速度。此外,使用可解码深度集编码器作为世界模型,能够处理可变数量的交通参与者,并提供可解释的潜在表示。

关键设计:世界模型使用深度集编码器来处理可变数量的交通参与者,并生成固定维度的潜在表示。RL采样器采用Actor-Critic架构,Actor网络输出采样分布的参数,Critic网络评估采样策略的质量。损失函数包括轨迹可行性损失、碰撞损失和规划成功率损失。具体参数设置和网络结构在论文中有详细描述,但具体数值未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在CommonRoad仿真环境中,与传统的采样方法相比,所需样本数量减少高达99%,运行时间减少高达84%,同时保持了规划质量(成功率和无碰撞率)。这些显著的性能提升表明,该方法能够有效地提高自动驾驶车辆在复杂城市环境中的决策效率。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的运动规划和决策控制,尤其是在复杂的城市交通环境中。通过提高规划效率和决策速度,可以提升自动驾驶车辆的安全性、可靠性和响应速度。此外,该方法还可以扩展到其他机器人运动规划领域,例如无人机导航和工业机器人路径规划。

📄 摘要(原文)

Sampling-based motion planning is a well-established approach in autonomous driving, valued for its modularity and analytical tractability. In complex urban scenarios, however, uniform or heuristic sampling often produces many infeasible or irrelevant trajectories. We address this limitation with a hybrid framework that learns where to sample while keeping trajectory generation and evaluation fully analytical and verifiable. A reinforcement learning (RL) agent guides the sampling process toward regions of the action space likely to yield feasible trajectories, while evaluation and final selection remains governed by deterministic feasibility checks and cost functions. We couple the RL sampler with a world model (WM) based on a decodable deep set encoder, enabling both variable numbers of traffic participants and reconstructable latent representations. The approach is evaluated in the CommonRoad simulation environment, showing up to 99% fewer required samples and a runtime reduction of up to 84% while maintaining planning quality in terms of success and collision-free rates. These improvements lead to faster, more reliable decision-making for autonomous vehicles in urban environments, achieving safer and more responsive navigation under real-world constraints. Code and trained artifacts are publicly available at: https://github.com/TUM-AVS/Learning-to-Sample