PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning
作者: Yinfeng Gao, Qichao Zhang, Deqing Liu, Zhongpu Xia, Guang Li, Kun Ma, Guang Chen, Hangjun Ye, Long Chen, Da-Wei Ding, Dongbin Zhao
分类: cs.RO, cs.CV
发布日期: 2026-03-16
备注: Accepted by IEEE RA-L. Submitted: 2025.12.2; Revised: 2026.2.4; Accepeted: 2026.3.7
💡 一句话要点
PerlAD:基于伪模拟强化学习的端到端闭环自动驾驶
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 端到端自动驾驶 强化学习 伪模拟 世界模型 闭环控制
📋 核心要点
- 现有端到端自动驾驶方法依赖模仿学习,但开环训练与实际驾驶存在差距,导致闭环性能不佳。
- PerlAD构建向量空间伪模拟环境,结合预测世界模型,实现高效且贴近实际的强化学习训练。
- 实验表明,PerlAD在Bench2Drive上超越现有端到端强化学习方法10.29%,并在遮挡场景中表现出可靠性。
📝 摘要(中文)
基于模仿学习(IL)的端到端自动驾驶策略由于开环训练目标与实际驾驶需求不一致,在闭环执行中表现不佳。强化学习(RL)虽然可以通过奖励信号直接优化驾驶目标,但基于渲染的训练环境引入了渲染差距,并且由于高计算成本而效率低下。为了克服这些挑战,我们提出了一种新的基于伪模拟的强化学习方法PerlAD,用于闭环端到端自动驾驶。PerlAD基于离线数据集构建了一个在向量空间中运行的伪模拟,从而实现高效、无渲染的试错训练。为了弥合静态数据集和动态闭环环境之间的差距,PerlAD引入了一个预测世界模型,该模型生成以自车规划为条件的反应式智能体轨迹。此外,为了促进高效规划,PerlAD利用分层解耦规划器,结合IL进行横向路径生成,RL进行纵向速度优化。综合实验结果表明,PerlAD在Bench2Drive基准测试中取得了最先进的性能,在驾驶评分方面超过了之前的E2E RL方法10.29%,而无需昂贵的在线交互。在DOS基准上的额外评估进一步证实了其在处理安全关键遮挡场景中的可靠性。
🔬 方法详解
问题定义:端到端自动驾驶面临的挑战是,基于模仿学习的策略在闭环测试中表现不佳,因为训练数据和实际驾驶环境存在差异。强化学习虽然可以通过奖励函数优化驾驶策略,但依赖于高成本的渲染环境,训练效率低,且存在渲染差距。
核心思路:PerlAD的核心思路是利用离线数据集构建一个伪模拟环境,该环境在向量空间中运行,无需渲染,从而实现高效的强化学习训练。同时,引入预测世界模型来弥合静态离线数据和动态闭环环境之间的差距。
技术框架:PerlAD包含以下主要模块:1) 基于离线数据集构建的向量空间伪模拟环境;2) 预测世界模型,用于生成反应式智能体轨迹;3) 分层解耦规划器,其中模仿学习用于横向路径生成,强化学习用于纵向速度优化。整体流程是,首先利用离线数据训练预测世界模型,然后在伪模拟环境中,利用强化学习优化驾驶策略,最后将训练好的策略部署到实际环境中。
关键创新:PerlAD的关键创新在于提出了基于伪模拟的强化学习方法,该方法无需渲染,大大提高了训练效率。此外,预测世界模型的引入,使得可以在静态离线数据上训练出适应动态闭环环境的驾驶策略。分层解耦规划器也提高了规划效率。
关键设计:预测世界模型的设计至关重要,它需要能够准确预测其他车辆的运动轨迹,以便在伪模拟环境中进行有效的训练。分层解耦规划器中,模仿学习和强化学习的结合,可以充分利用模仿学习的快速学习能力和强化学习的优化能力。具体的损失函数和网络结构等细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
PerlAD在Bench2Drive基准测试中取得了显著的性能提升,驾驶评分超过了之前的端到端强化学习方法10.29%,表明了其在复杂驾驶场景中的有效性。此外,在DOS基准上的评估也证实了PerlAD在处理安全关键遮挡场景中的可靠性,这对于自动驾驶系统的安全性至关重要。
🎯 应用场景
PerlAD具有广泛的应用前景,可用于提升自动驾驶系统的安全性和可靠性,尤其是在计算资源有限或难以获取高质量渲染环境的场景下。该方法可以加速自动驾驶策略的开发和部署,降低开发成本,并有望应用于各种类型的自动驾驶车辆,包括乘用车、商用车和无人配送车等。
📄 摘要(原文)
End-to-end autonomous driving policies based on Imitation Learning (IL) often struggle in closed-loop execution due to the misalignment between inadequate open-loop training objectives and real driving requirements. While Reinforcement Learning (RL) offers a solution by directly optimizing driving goals via reward signals, the rendering-based training environments introduce the rendering gap and are inefficient due to high computational costs. To overcome these challenges, we present a novel Pseudo-simulation-based RL method for closed-loop end-to-end autonomous driving, PerlAD. Based on offline datasets, PerlAD constructs a pseudo-simulation that operates in vector space, enabling efficient, rendering-free trial-and-error training. To bridge the gap between static datasets and dynamic closed-loop environments, PerlAD introduces a prediction world model that generates reactive agent trajectories conditioned on the ego vehicle's plan. Furthermore, to facilitate efficient planning, PerlAD utilizes a hierarchical decoupled planner that combines IL for lateral path generation and RL for longitudinal speed optimization. Comprehensive experimental results demonstrate that PerlAD achieves state-of-the-art performance on the Bench2Drive benchmark, surpassing the previous E2E RL method by 10.29% in Driving Score without requiring expensive online interactions. Additional evaluations on the DOS benchmark further confirm its reliability in handling safety-critical occlusion scenarios.