Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving

📄 arXiv: 2603.13842 📥 PDF

作者: Zhexi Lian, Haoran Wang, Xuerun Yan, Weimeng Lin, Xianhong Zhang, Yongyu Chen, Jia Hu

分类: cs.RO, cs.AI

发布日期: 2026-04-07


💡 一句话要点

PaIR-Drive:端到端自动驾驶中并行模仿学习与强化学习的协同框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 端到端自动驾驶 模仿学习 强化学习 并行训练 策略优化

📋 核心要点

  1. 现有端到端自动驾驶方法依赖模仿学习,但受限于人类演示数据的质量,而顺序强化学习微调又容易导致策略漂移和性能瓶颈。
  2. PaIR-Drive框架将模仿学习和强化学习并行化,通过无冲突的训练目标实现协同优化,避免了策略漂移和对预训练策略的依赖。
  3. 实验结果表明,PaIR-Drive在NAVSIM基准上显著优于现有强化学习微调方法,并能纠正人类专家的次优行为,生成高质量轨迹。

📝 摘要(中文)

端到端自动驾驶通常基于模仿学习(IL),但其性能受限于人类演示数据的质量。为了克服这一限制,现有方法通过顺序微调的方式引入强化学习(RL)。然而,这种范式并非最优:顺序RL微调可能导致策略漂移,并且由于依赖于预训练的IL策略,性能往往达到上限。为了解决这些问题,我们提出了PaIR-Drive,一个通用的并行框架,用于端到端自动驾驶中模仿学习和强化学习的协同。在训练过程中,PaIR-Drive将IL和RL分离为两个具有无冲突训练目标的并行分支,从而实现完全协同优化。这种设计消除了应用新IL策略时重新训练RL的需求。在推理过程中,RL利用IL策略来进一步优化最终规划,从而实现超越IL先验知识的性能。此外,我们引入了一种树状结构的轨迹神经采样器,以在RL分支中进行相对策略优化(GRPO),从而增强了探索能力。在NAVSIMv1和v2基准上的广泛分析表明,PaIR-Drive在Transfuser和DiffusionDrive IL基线的基础上,实现了91.2 PDMS和87.9 EPDMS的竞争性性能。PaIR-Drive始终优于现有的RL微调方法,甚至可以纠正人类专家的次优行为。定性结果进一步证实,PaIR-Drive可以有效地探索和生成高质量的轨迹。

🔬 方法详解

问题定义:端到端自动驾驶任务中,如何克服模仿学习依赖高质量人类演示数据以及强化学习微调带来的策略漂移和性能瓶颈问题?现有方法通常采用先模仿学习预训练,再用强化学习微调的策略,但这种顺序方式使得强化学习的性能受限于模仿学习的初始策略,难以探索更优的驾驶行为。

核心思路:PaIR-Drive的核心思路是将模仿学习和强化学习并行进行,避免了强化学习对模仿学习的依赖。通过设计无冲突的训练目标,使得两个分支可以协同优化,互相促进,从而突破模仿学习的性能上限,并避免强化学习过程中的策略漂移。

技术框架:PaIR-Drive包含两个主要分支:模仿学习分支和强化学习分支。模仿学习分支负责学习人类驾驶行为,提供初始策略。强化学习分支则通过与环境交互,探索更优的驾驶策略。两个分支并行训练,共享部分网络结构,并通过特定的损失函数进行协同优化。在推理阶段,强化学习分支利用模仿学习分支的输出作为指导,进一步优化最终的驾驶轨迹。

关键创新:PaIR-Drive的关键创新在于并行训练框架和树状结构的轨迹神经采样器。并行训练框架允许模仿学习和强化学习独立优化,避免了顺序微调带来的问题。树状结构的轨迹神经采样器则增强了强化学习的探索能力,使其能够发现更优的驾驶策略。

关键设计:PaIR-Drive使用了Transfuser或DiffusionDrive作为模仿学习的基线模型。强化学习分支采用了相对策略优化(GRPO)方法,并引入了树状结构的轨迹神经采样器来生成候选轨迹。损失函数的设计至关重要,需要平衡模仿学习和强化学习的目标,避免两个分支之间的冲突。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PaIR-Drive在NAVSIMv1和v2基准测试中取得了显著成果,在Transfuser和DiffusionDrive IL基线的基础上,分别实现了91.2 PDMS和87.9 EPDMS的性能。该方法不仅优于现有的强化学习微调方法,还能纠正人类专家的次优驾驶行为,证明了其强大的探索和优化能力。

🎯 应用场景

PaIR-Drive框架可应用于各种自动驾驶场景,尤其是在缺乏高质量人类演示数据或需要超越人类驾驶水平的情况下。该方法能够提升自动驾驶系统的安全性和可靠性,并可扩展到其他机器人控制任务中,例如无人机导航和机器人操作。

📄 摘要(原文)

End-to-end autonomous driving is typically built upon imitation learning (IL), yet its performance is constrained by the quality of human demonstrations. To overcome this limitation, recent methods incorporate reinforcement learning (RL) through sequential fine-tuning. However, such a paradigm remains suboptimal: sequential RL fine-tuning can introduce policy drift and often leads to a performance ceiling due to its dependence on the pretrained IL policy. To address these issues, we propose PaIR-Drive, a general Parallel framework for collaborative Imitation and Reinforcement learning in end-to-end autonomous driving. During training, PaIR-Drive separates IL and RL into two parallel branches with conflict-free training objectives, enabling fully collaborative optimization. This design eliminates the need to retrain RL when applying a new IL policy. During inference, RL leverages the IL policy to further optimize the final plan, allowing performance beyond prior knowledge of IL. Furthermore, we introduce a tree-structured trajectory neural sampler to group relative policy optimization (GRPO) in the RL branch, which enhances exploration capability. Extensive analysis on NAVSIMv1 and v2 benchmark demonstrates that PaIR-Drive achieves Competitive performance of 91.2 PDMS and 87.9 EPDMS, building upon Transfuser and DiffusionDrive IL baselines. PaIR-Drive consistently outperforms existing RL fine-tuning methods, and could even correct human experts' suboptimal behaviors. Qualitative results further confirm that PaIR-Drive can effectively explore and generate high-quality trajectories.