Imagine-2-Drive: Leveraging High-Fidelity World Models via Multi-Modal Diffusion Policies

📄 arXiv: 2411.10171v2 📥 PDF

作者: Anant Garg, K Madhava Krishna

分类: cs.RO, cs.AI

发布日期: 2024-11-15 (更新: 2025-03-09)

备注: Submitted to IROS 2025


💡 一句话要点

提出Imagine-2-Drive,利用多模态扩散策略和高保真世界模型提升自动驾驶决策能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 世界模型 强化学习 扩散模型 多模态策略

📋 核心要点

  1. 现有世界模型预测精度低,误差累积严重,传统强化学习策略难以捕捉驾驶场景的多模态决策。
  2. 提出Imagine-2-Drive框架,结合扩散世界模型DiffDreamer和扩散策略DPA,实现高保真预测和多模态策略学习。
  3. 在CARLA基准测试中,Imagine-2-Drive优于现有世界模型,路线完成率和成功率分别提升15%和20%。

📝 摘要(中文)

基于世界模型的强化学习(WMRL)通过减少在线交互的需求,实现了样本高效的策略学习,这对于自动驾驶至关重要,因为在线交互可能代价高昂且不安全。然而,现有的世界模型通常预测保真度较低,并且存在累积的单步误差,导致策略在长时程上性能下降。此外,传统的RL策略,通常是确定性的或基于单高斯的,无法捕捉复杂驾驶场景中决策的多模态特性。为了解决这些挑战,我们提出了Imagine-2-Drive,一种新颖的WMRL框架,它将高保真世界模型与多模态扩散策略相结合。它包含两个关键组件:DiffDreamer,一个基于扩散的世界模型,可以同时生成未来的观测,从而减轻误差累积;以及DPA(Diffusion Policy Actor),一个基于扩散的策略,可以建模多样且多模态的轨迹分布。通过在DiffDreamer中训练DPA,我们的方法能够以最少的在线交互实现鲁棒的策略学习。我们在CARLA中使用标准驾驶基准评估了我们的方法,并证明它优于先前的世界模型基线,路线完成率和成功率分别提高了15%和20%。

🔬 方法详解

问题定义:论文旨在解决自动驾驶中,基于世界模型的强化学习所面临的两个主要问题:一是现有世界模型预测精度不足,存在误差累积,导致策略性能下降;二是传统强化学习策略无法有效处理复杂驾驶场景中的多模态决策问题。现有方法的痛点在于无法同时保证世界模型的预测精度和策略的多样性。

核心思路:论文的核心思路是利用扩散模型强大的生成能力,构建一个高保真度的世界模型和一个能够生成多模态轨迹的策略。通过扩散模型同时预测未来多个时间步的观测,从而减轻误差累积。同时,利用扩散策略学习轨迹分布,捕捉驾驶场景中的多种可能行为。

技术框架:Imagine-2-Drive框架包含两个主要模块:DiffDreamer(扩散世界模型)和DPA(扩散策略)。DiffDreamer负责生成未来观测,DPA负责学习驾驶策略。整个训练流程是在DiffDreamer生成的虚拟环境中训练DPA,从而实现策略的优化。该框架采用离线训练和在线微调相结合的方式,以提高样本效率和鲁棒性。

关键创新:论文的关键创新在于将扩散模型应用于世界模型和策略学习,从而实现了高保真度的环境预测和多模态的策略生成。DiffDreamer通过同时预测多个未来时间步的观测,有效缓解了误差累积问题。DPA则能够学习到更加多样化的驾驶行为,从而更好地适应复杂驾驶场景。

关键设计:DiffDreamer采用扩散模型架构,以当前状态和动作作为条件,生成未来多个时间步的观测。DPA也采用扩散模型架构,以当前状态作为条件,生成动作序列。损失函数包括重构损失和对抗损失,用于提高生成样本的质量和真实性。具体的网络结构和参数设置在论文中有详细描述(具体数值未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Imagine-2-Drive在CARLA自动驾驶模拟器上显著优于现有基于世界模型的强化学习方法。具体而言,路线完成率提高了15%,成功率提高了20%。这些结果表明,该方法能够有效地提高自动驾驶车辆的决策能力和鲁棒性。

🎯 应用场景

该研究成果可应用于自动驾驶系统的决策规划模块,提高自动驾驶车辆在复杂环境下的安全性和可靠性。通过高保真世界模型,车辆可以更好地预测未来环境变化,从而做出更合理的决策。多模态策略则使车辆能够适应不同的驾驶风格和场景需求,提升用户体验。此外,该方法还可扩展到其他机器人领域,例如无人机、服务机器人等。

📄 摘要(原文)

World Model-based Reinforcement Learning (WMRL) enables sample efficient policy learning by reducing the need for online interactions which can potentially be costly and unsafe, especially for autonomous driving. However, existing world models often suffer from low prediction fidelity and compounding one-step errors, leading to policy degradation over long horizons. Additionally, traditional RL policies, often deterministic or single Gaussian-based, fail to capture the multi-modal nature of decision-making in complex driving scenarios. To address these challenges, we propose Imagine-2-Drive, a novel WMRL framework that integrates a high-fidelity world model with a multi-modal diffusion-based policy actor. It consists of two key components: DiffDreamer, a diffusion-based world model that generates future observations simultaneously, mitigating error accumulation, and DPA (Diffusion Policy Actor), a diffusion-based policy that models diverse and multi-modal trajectory distributions. By training DPA within DiffDreamer, our method enables robust policy learning with minimal online interactions. We evaluate our method in CARLA using standard driving benchmarks and demonstrate that it outperforms prior world model baselines, improving Route Completion and Success Rate by 15% and 20% respectively.