DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

📄 arXiv: 2603.24587v1 📥 PDF

作者: Pengxuan Yang, Yupeng Zheng, Deheng Qian, Zebin Xing, Qichao Zhang, Linbo Wang, Yichen Zhang, Shaoyu Guo, Zhongpu Xia, Qiang Chen, Junyu Han, Lingyun Xu, Yifeng Pan, Dongbin Zhao

分类: cs.LG, cs.RO

发布日期: 2026-03-25

备注: first version


💡 一句话要点

DreamerAD:基于潜空间世界模型的自动驾驶高效强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 自动驾驶 强化学习 世界模型 潜空间表示 扩散模型 视频生成模型 高效训练

📋 核心要点

  1. 现有基于像素级扩散世界模型的自动驾驶强化学习方法,推理速度慢,难以支持高频交互。
  2. DreamerAD通过潜空间表示、捷径强制、自回归奖励模型和高斯词汇采样,显著提升了训练效率。
  3. DreamerAD在NavSim v2上取得了87.7 EPDMS的SOTA性能,验证了其在自动驾驶领域的有效性。

📝 摘要(中文)

DreamerAD是首个潜空间世界模型框架,通过将扩散采样从100步压缩到1步,实现了自动驾驶高效强化学习,速度提升80倍,同时保持视觉可解释性。在真实驾驶数据上训练强化学习策略成本高昂且存在安全风险。现有的像素级扩散世界模型虽然能够实现基于想象的安全训练,但存在多步扩散推理延迟(2秒/帧)的问题,阻碍了高频强化学习交互。DreamerAD利用视频生成模型中的去噪潜在特征,通过三种关键机制实现:(1) 捷径强制,通过递归多分辨率步长压缩降低采样复杂度;(2) 自回归密集奖励模型,直接在潜在表示上运行,实现细粒度的信用分配;(3) 高斯词汇采样,用于GRPO,将探索限制在物理上合理的轨迹内。DreamerAD在NavSim v2上实现了87.7 EPDMS,确立了最先进的性能,并证明了潜空间强化学习对自动驾驶的有效性。

🔬 方法详解

问题定义:论文旨在解决自动驾驶强化学习中,使用基于像素级扩散世界模型进行训练时,推理速度过慢的问题。现有的像素级扩散模型需要多步采样,导致推理延迟高,无法支持高频率的强化学习交互,限制了训练效率和实际应用。

核心思路:论文的核心思路是将强化学习过程转移到潜空间中进行,利用视频生成模型学习到的潜在特征表示,并在此基础上进行策略学习。通过压缩扩散采样步骤,加速推理过程,同时利用自回归奖励模型和高斯词汇采样来提高训练效率和策略的安全性。

技术框架:DreamerAD框架主要包含以下几个模块:1) 视频生成模型:用于学习环境的潜在表示;2) 捷径强制模块:通过递归多分辨率步长压缩,减少扩散采样步骤;3) 自回归密集奖励模型:直接在潜在表示上预测奖励,实现细粒度的信用分配;4) GRPO (Gaussian Restricted Policy Optimization):使用高斯词汇采样,约束探索空间,保证轨迹的物理合理性。

关键创新:DreamerAD的关键创新在于:1) 将强化学习过程转移到潜空间,利用视频生成模型的潜在表示;2) 提出了捷径强制方法,显著减少了扩散采样步骤,加速了推理过程;3) 设计了自回归密集奖励模型,提高了信用分配的精度;4) 引入了高斯词汇采样,约束了探索空间,保证了策略的安全性。与现有方法相比,DreamerAD在保证性能的同时,显著提高了训练效率。

关键设计:捷径强制模块通过递归地将多步扩散过程压缩为单步,显著减少了采样次数。自回归密集奖励模型使用Transformer结构,直接在潜在表示上预测奖励。高斯词汇采样通过学习潜在空间中的高斯分布,约束策略的探索范围。GRPO算法用于优化策略,目标是最大化累积奖励,同时保证策略的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DreamerAD在NavSim v2自动驾驶仿真环境中取得了显著的性能提升,达到了87.7 EPDMS (Episode Driving Miles per Simulation)。相比于现有的基于像素级扩散世界模型的方法,DreamerAD实现了80倍的推理速度提升,同时保持了视觉可解释性。实验结果表明,DreamerAD是目前最先进的基于世界模型的自动驾驶强化学习方法。

🎯 应用场景

DreamerAD具有广泛的应用前景,可用于自动驾驶车辆的决策规划、行为预测和运动控制等任务。该研究成果能够降低自动驾驶强化学习的训练成本和安全风险,加速自动驾驶技术的研发和部署。此外,该方法还可以推广到其他需要高效强化学习的机器人领域,例如无人机、机械臂等。

📄 摘要(原文)

We introduce DreamerAD, the first latent world model framework that enables efficient reinforcement learning for autonomous driving by compressing diffusion sampling from 100 steps to 1 - achieving 80x speedup while maintaining visual interpretability. Training RL policies on real-world driving data incurs prohibitive costs and safety risks. While existing pixel-level diffusion world models enable safe imagination-based training, they suffer from multi-step diffusion inference latency (2s/frame) that prevents high-frequency RL interaction. Our approach leverages denoised latent features from video generation models through three key mechanisms: (1) shortcut forcing that reduces sampling complexity via recursive multi-resolution step compression, (2) an autoregressive dense reward model operating directly on latent representations for fine-grained credit assignment, and (3) Gaussian vocabulary sampling for GRPO that constrains exploration to physically plausible trajectories. DreamerAD achieves 87.7 EPDMS on NavSim v2, establishing state-of-the-art performance and demonstrating that latent-space RL is effective for autonomous driving.