Reinforcement Learning-based Dynamic Adaptation for Sampling-Based Motion Planning in Agile Autonomous Driving

📄 arXiv: 2510.10567v1 📥 PDF

作者: Alexander Langmann, Yevhenii Tokarev, Mattia Piccinini, Korbinian Moller, Johannes Betz

分类: cs.RO

发布日期: 2025-10-12

备注: 8 pages, submitted to the IEEE ICRA 2026, Vienna, Austria


💡 一句话要点

提出基于强化学习的动态自适应采样运动规划,用于敏捷自主驾驶。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 运动规划 自主驾驶 轨迹规划 动态自适应

📋 核心要点

  1. 现有基于采样的轨迹规划器依赖手动调整的静态权重,难以在不同场景下达到最优。
  2. 利用强化学习智能体动态调整底层轨迹规划器的成本函数参数,实现自适应行为选择。
  3. 仿真实验表明,该方法在保证安全性的前提下,显著提升了自主赛车的超车性能。

📝 摘要(中文)

本文提出了一种基于强化学习(RL)的动态自适应方法,用于提升敏捷自主驾驶中基于采样的轨迹规划器的性能。现有的轨迹规划器通常依赖于手动调整的静态权重成本函数,这导致在各种赛道场景中无法达到最优性能。为了解决这个问题,本文使用RL智能体作为高层行为选择器,在运行时动态切换底层解析轨迹规划器的成本函数参数。在自主赛车环境的仿真实验中,该方法实现了0%的碰撞率,同时相比于最先进的静态规划器,超车时间最多减少了60%。该智能体能够动态切换激进和保守的行为,从而实现静态配置无法实现的交互式操作。实验结果表明,将强化学习作为高层选择器可以解决自主赛车规划器中安全性和竞争性之间的固有权衡。该方法为更广泛的自主驾驶应用提供了一种自适应且可解释的运动规划途径。

🔬 方法详解

问题定义:论文旨在解决敏捷自主驾驶中,基于采样的轨迹规划器由于使用静态成本函数权重而导致的性能瓶颈问题。现有的方法需要在安全性和激进性之间进行权衡,无法根据不同的赛道环境和交通状况进行自适应调整,从而限制了自主车辆的性能。

核心思路:论文的核心思路是利用强化学习(RL)智能体作为高层决策器,动态地调整底层轨迹规划器的成本函数参数。通过学习不同场景下的最优成本函数配置,RL智能体能够使轨迹规划器在安全性和激进性之间进行动态切换,从而提高自主车辆的整体性能。

技术框架:整体框架包含两个主要模块:底层轨迹规划器和高层RL智能体。底层轨迹规划器负责生成满足车辆动力学约束的轨迹,并根据给定的成本函数进行优化。高层RL智能体则根据当前环境状态(例如车辆速度、位置、周围车辆信息)选择合适的成本函数参数,并将其传递给底层轨迹规划器。整个过程形成一个闭环控制系统,通过不断学习和调整,使自主车辆能够适应不同的驾驶场景。

关键创新:该方法最重要的创新点在于将强化学习引入到轨迹规划器的参数优化过程中,实现了成本函数的动态自适应调整。与传统的静态成本函数权重相比,该方法能够根据不同的环境状态和任务需求,自动调整成本函数的权重,从而提高自主车辆的性能和鲁棒性。

关键设计:RL智能体使用深度Q网络(DQN)进行训练,状态空间包括车辆的速度、位置、与赛道中心的距离、周围车辆的信息等。动作空间对应于不同的成本函数参数组合。奖励函数的设计至关重要,需要综合考虑安全性(避免碰撞)、速度(尽快完成赛道)和舒适性(平滑的轨迹)。此外,论文还采用了经验回放和目标网络等技术来提高DQN的训练稳定性和收敛速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真实验结果表明,基于强化学习的动态自适应轨迹规划器在自主赛车环境中取得了显著的性能提升。与最先进的静态规划器相比,该方法实现了0%的碰撞率,同时超车时间最多减少了60%。这表明该方法能够在保证安全性的前提下,显著提高自主车辆的竞争力和效率。

🎯 应用场景

该研究成果可应用于各种自主驾驶场景,例如自动驾驶出租车、自动驾驶物流车和高级驾驶辅助系统(ADAS)。通过动态调整轨迹规划器的参数,可以提高自主车辆在复杂交通环境中的安全性、效率和舒适性。此外,该方法还可以扩展到其他机器人领域,例如无人机和移动机器人,以实现更加智能和灵活的运动规划。

📄 摘要(原文)

Sampling-based trajectory planners are widely used for agile autonomous driving due to their ability to generate fast, smooth, and kinodynamically feasible trajectories. However, their behavior is often governed by a cost function with manually tuned, static weights, which forces a tactical compromise that is suboptimal across the wide range of scenarios encountered in a race. To address this shortcoming, we propose using a Reinforcement Learning (RL) agent as a high-level behavioral selector that dynamically switches the cost function parameters of an analytical, low-level trajectory planner during runtime. We show the effectiveness of our approach in simulation in an autonomous racing environment where our RL-based planner achieved 0% collision rate while reducing overtaking time by up to 60% compared to state-of-the-art static planners. Our new agent now dynamically switches between aggressive and conservative behaviors, enabling interactive maneuvers unattainable with static configurations. These results demonstrate that integrating reinforcement learning as a high-level selector resolves the inherent trade-off between safety and competitiveness in autonomous racing planners. The proposed methodology offers a pathway toward adaptive yet interpretable motion planning for broader autonomous driving applications.