Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving

📄 arXiv: 2408.14197v3 📥 PDF

作者: Yu Yang, Jianbiao Mei, Yukai Ma, Siliang Du, Wenqing Chen, Yijie Qian, Yuxiang Feng, Yong Liu

分类: cs.CV

发布日期: 2024-08-26 (更新: 2025-01-17)

备注: Accepted by AAAI2025


💡 一句话要点

Drive-OccWorld:提出视觉中心4D Occupancy预测与规划的世界模型,用于自动驾驶。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 自动驾驶 世界模型 Occupancy预测 端到端规划 4D预测 视觉中心 BEV 轨迹规划

📋 核心要点

  1. 现有世界模型方法主要集中于数据生成或预训练范式,缺乏直接应用于端到端自动驾驶规划的能力。
  2. Drive-OccWorld通过引入语义和运动条件归一化,以及灵活的动作条件注入,实现了可控的4D occupancy预测。
  3. 在多个数据集上的实验表明,该方法能够生成合理的4D occupancy,并可集成到端到端规划中,提升自动驾驶性能。

📝 摘要(中文)

本文提出Drive-OccWorld,将视觉中心4D预测世界模型应用于自动驾驶的端到端规划。该方法在记忆模块中引入语义和运动条件归一化,用于累积历史BEV嵌入中的语义和动态信息。这些BEV特征随后被传递到世界解码器,用于未来occupancy和光流预测,同时考虑了几何和时空建模。此外,本文提出将灵活的动作条件(如速度、转向角、轨迹和命令)注入到世界模型中,以实现可控生成并促进更广泛的下游应用。进一步探索了将4D世界模型的生成能力与端到端规划集成,从而能够连续预测未来状态,并使用基于occupancy的成本函数选择最佳轨迹。在nuScenes、nuScenes-Occupancy和Lyft-Level5数据集上的实验表明,该方法可以生成合理且可控的4D occupancy,为驾驶世界生成和端到端规划的进步铺平了道路。

🔬 方法详解

问题定义:现有方法在世界模型的应用上,主要集中于数据生成和预训练,缺乏将世界模型直接应用于端到端自动驾驶规划的能力。痛点在于如何有效地利用世界模型预测未来环境状态,并将其与规划模块相结合,实现安全、可扩展的自动驾驶。

核心思路:Drive-OccWorld的核心思路是将视觉中心4D预测世界模型与端到端规划相结合。通过学习环境的动态和语义信息,预测未来一段时间内的occupancy和光流,并利用这些预测结果进行轨迹规划。这样设计的目的是为了让自动驾驶系统能够“预见”未来,从而做出更合理的决策。

技术框架:Drive-OccWorld的整体框架包含以下几个主要模块:1) BEV编码器:将多视角图像转换为BEV特征。2) 记忆模块:通过语义和运动条件归一化,累积历史BEV嵌入中的语义和动态信息。3) 世界解码器:基于历史信息和动作条件,预测未来的occupancy和光流。4) 规划模块:利用预测的occupancy信息,通过基于occupancy的成本函数选择最优轨迹。

关键创新:该论文的关键创新在于:1) 语义和运动条件归一化:在记忆模块中引入语义和运动条件归一化,能够更有效地提取和利用历史信息。2) 灵活的动作条件注入:允许将速度、转向角、轨迹和命令等多种动作条件注入到世界模型中,实现可控生成。3) 端到端集成:将4D世界模型的生成能力与端到端规划集成,实现了连续预测和轨迹优化。

关键设计:1) 语义和运动条件归一化:通过学习语义和运动信息的归一化参数,自适应地调整记忆模块中的信息流动。2) 动作条件编码:将动作条件编码为向量,并将其与BEV特征进行融合,从而影响世界解码器的预测结果。3) Occupancy-based成本函数:使用预测的occupancy信息计算轨迹的成本,从而选择避开障碍物的安全轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在nuScenes、nuScenes-Occupancy和Lyft-Level5数据集上的实验表明,Drive-OccWorld能够生成合理且可控的4D occupancy。该方法在预测精度和规划性能方面均优于现有方法,为驾驶世界生成和端到端规划的进步奠定了基础。具体性能提升数据未知,需参考论文原文。

🎯 应用场景

该研究成果可应用于自动驾驶汽车、无人配送车、机器人等领域。通过预测未来环境状态,可以提高自动驾驶系统的安全性、可靠性和效率。此外,该方法还可以用于模拟驾驶环境、训练自动驾驶算法等。

📄 摘要(原文)

World models envision potential future states based on various ego actions. They embed extensive knowledge about the driving environment, facilitating safe and scalable autonomous driving. Most existing methods primarily focus on either data generation or the pretraining paradigms of world models. Unlike the aforementioned prior works, we propose Drive-OccWorld, which adapts a vision-centric 4D forecasting world model to end-to-end planning for autonomous driving. Specifically, we first introduce a semantic and motion-conditional normalization in the memory module, which accumulates semantic and dynamic information from historical BEV embeddings. These BEV features are then conveyed to the world decoder for future occupancy and flow forecasting, considering both geometry and spatiotemporal modeling. Additionally, we propose injecting flexible action conditions, such as velocity, steering angle, trajectory, and commands, into the world model to enable controllable generation and facilitate a broader range of downstream applications. Furthermore, we explore integrating the generative capabilities of the 4D world model with end-to-end planning, enabling continuous forecasting of future states and the selection of optimal trajectories using an occupancy-based cost function. Comprehensive experiments conducted on the nuScenes, nuScenes-Occupancy, and Lyft-Level5 datasets illustrate that our method can generate plausible and controllable 4D occupancy, paving the way for advancements in driving world generation and end-to-end planning. Project page: https://drive-occworld.github.io/