Dynamic Lookahead Distance via Reinforcement Learning-Based Pure Pursuit for Autonomous Racing

📄 arXiv: 2603.28625v1 📥 PDF

作者: Mohamed Elgouhary, Amr S. El-Wakeel

分类: cs.RO, cs.AI, eess.SY

发布日期: 2026-03-30


💡 一句话要点

提出基于强化学习的Pure Pursuit算法,动态调整前瞻距离以优化自动驾驶赛车性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 Pure Pursuit 路径跟踪 动态前瞻距离 混合控制 机器人

📋 核心要点

  1. 传统Pure Pursuit算法依赖于固定的前瞻距离,难以兼顾直道稳定性和弯道精确性,限制了自动驾驶赛车的性能。
  2. 提出一种混合控制框架,利用强化学习PPO智能体动态调整Pure Pursuit算法的前瞻距离,实现自适应路径跟踪。
  3. 实验结果表明,该方法在仿真和真实赛车平台上均能有效提升单圈时间和重复单圈完成率,并具备良好的零样本迁移能力。

📝 摘要(中文)

Pure Pursuit (PP) 算法因其简单性和实时性而被广泛应用于自动驾驶车辆的路径跟踪。然而,其有效性对前瞻距离的选择非常敏感:较短的值可以改善转弯性能,但可能导致在直道上的不稳定;较长的值可以提高平滑性,但会降低曲线中的精度。本文提出了一种混合控制框架,该框架将近端策略优化 (PPO) 与经典 Pure Pursuit 控制器相结合,以在赛车过程中动态调整前瞻距离。PPO 智能体将车辆速度和多视野曲率特征映射到在线前瞻命令。它在 F1TENTH Gym 模拟器中使用 Stable-Baselines3 进行训练,并采用 KL 惩罚和学习率衰减以提高稳定性,然后在 ROS2 环境中部署以指导控制器。仿真实验将所提出的方法与固定前瞻 Pure Pursuit 和自适应 Pure Pursuit 基线进行比较。额外的真实车辆实验将学习到的控制器与固定前瞻 Pure Pursuit 控制器进行比较。结果表明,学习到的策略提高了单圈时间和在未见赛道上的重复单圈完成率,同时实现了零样本迁移到硬件。学习到的控制器通过在直道上增加前瞻距离并在曲线中减小前瞻距离来调整前瞻距离,证明了通过在线自适应单个可解释参数来增强经典控制器的有效性。在未见赛道上,所提出的方法在蒙特利尔赛道上实现了 33.16 秒,在亚斯码头赛道上实现了 46.05 秒,同时比基线容忍更激进的速度曲线缩放,并在测试的设置中实现了最佳单圈时间。初步的真实车辆实验进一步支持了在 1:10 比例的自动驾驶赛车平台上的 sim-to-real 迁移。

🔬 方法详解

问题定义:Pure Pursuit算法中的前瞻距离是影响路径跟踪性能的关键参数。固定前瞻距离难以适应不同赛道环境和车辆状态,导致在直道上可能出现不稳定,在弯道上精度不足。现有自适应方法可能计算复杂或泛化能力有限。

核心思路:利用强化学习的自适应能力,训练一个PPO智能体,根据车辆速度和赛道曲率等信息,动态调整Pure Pursuit算法的前瞻距离。通过在线调整这一关键参数,实现对经典控制器的增强,使其能够更好地适应不同的驾驶场景。

技术框架:整体框架包含三个主要部分:环境感知模块(获取车辆速度和赛道曲率信息)、PPO智能体(根据感知信息输出前瞻距离指令)和Pure Pursuit控制器(根据前瞻距离和目标路径生成控制指令)。PPO智能体在F1TENTH Gym模拟器中进行训练,然后部署到ROS2环境中控制真实车辆。

关键创新:将强化学习与经典控制算法相结合,通过学习的方式动态调整Pure Pursuit算法的关键参数,而非直接替代整个控制流程。这种混合控制框架既保留了经典控制算法的稳定性和可解释性,又利用了强化学习的自适应能力。

关键设计:PPO智能体的输入特征包括车辆速度和多视野曲率信息,输出为前瞻距离指令。训练过程中使用KL散度惩罚和学习率衰减来提高训练的稳定性和收敛性。奖励函数的设计旨在鼓励车辆快速完成赛道,同时避免碰撞和偏离赛道中心线。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在仿真实验中,该方法在未见赛道上取得了显著的性能提升,蒙特利尔赛道上达到33.16秒,亚斯码头赛道上达到46.05秒,优于固定前瞻Pure Pursuit和自适应Pure Pursuit基线。同时,该方法对速度曲线缩放具有更强的鲁棒性。初步的真实车辆实验也验证了该方法在1:10比例自动驾驶赛车平台上的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶赛车、无人配送车等需要高精度路径跟踪的场景。通过动态调整前瞻距离,可以提高车辆在复杂环境下的行驶性能和安全性。此外,该方法也为经典控制算法与强化学习的融合提供了一种新的思路,具有一定的借鉴意义。

📄 摘要(原文)

Pure Pursuit (PP) is a widely used path-tracking algorithm in autonomous vehicles due to its simplicity and real-time performance. However, its effectiveness is sensitive to the choice of lookahead distance: shorter values improve cornering but can cause instability on straights, while longer values improve smoothness but reduce accuracy in curves. We propose a hybrid control framework that integrates Proximal Policy Optimization (PPO) with the classical Pure Pursuit controller to adjust the lookahead distance dynamically during racing. The PPO agent maps vehicle speed and multi-horizon curvature features to an online lookahead command. It is trained using Stable-Baselines3 in the F1TENTH Gym simulator with a KL penalty and learning-rate decay for stability, then deployed in a ROS2 environment to guide the controller. Experiments in simulation compare the proposed method against both fixed-lookahead Pure Pursuit and an adaptive Pure Pursuit baseline. Additional real-car experiments compare the learned controller against a fixed-lookahead Pure Pursuit controller. Results show that the learned policy improves lap-time performance and repeated lap completion on unseen tracks, while also transferring zero-shot to hardware. The learned controller adapts the lookahead by increasing it on straights and reducing it in curves, demonstrating effectiveness in augmenting a classical controller by online adaptation of a single interpretable parameter. On unseen tracks, the proposed method achieved 33.16 s on Montreal and 46.05 s on Yas Marina, while tolerating more aggressive speed-profile scaling than the baselines and achieving the best lap times among the tested settings. Initial real-car experiments further support sim-to-real transfer on a 1:10-scale autonomous racing platform