Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving

作者: Xiang Li, Pengfei Li, Yupeng Zheng, Wei Sun, Yan Wang, Yilun Chen

分类: cs.CV

发布日期: 2025-02-11

备注: Accepted by ICLR 2025

💡 一句话要点

提出PreWorld：一种半监督的、以视觉为中心的3D Occupancy世界模型，用于自动驾驶。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 3D Occupancy 世界模型 半监督学习 体渲染 运动规划 视觉感知

📋 核心要点

现有3D Occupancy世界模型依赖大量3D标注数据，标注成本高昂，限制了其在自动驾驶领域的应用。
PreWorld通过自监督预训练和全监督微调的两阶段训练，利用2D标签进行时间监督，降低了对3D标注数据的依赖。
实验表明，PreWorld在nuScenes数据集上，在3D/4D Occupancy预测和运动规划任务中均表现出竞争力的性能。

📝 摘要（中文）

理解世界动态对于自动驾驶中的规划至关重要。最近的方法试图通过学习3D occupancy世界模型来实现这一点，该模型基于当前观察预测未来周围场景。然而，3D occupancy标签仍然是产生有希望结果的必要条件。考虑到3D室外场景的高标注成本，我们提出了一种半监督的、以视觉为中心的3D occupancy世界模型PreWorld，通过一种新颖的两阶段训练范式来利用2D标签的潜力：自监督预训练阶段和全监督微调阶段。具体来说，在预训练阶段，我们利用属性投影头来生成场景的不同属性场（例如，RGB、密度、语义），从而通过体渲染技术实现来自2D标签的时间监督。此外，我们引入了一个简单而有效的状态条件预测模块，以直接的方式递归地预测未来的occupancy和自车轨迹。在nuScenes数据集上的大量实验验证了我们方法的有效性和可扩展性，并表明PreWorld在3D occupancy预测、4D occupancy预测和运动规划任务中取得了有竞争力的性能。

🔬 方法详解

问题定义：论文旨在解决自动驾驶场景下，3D Occupancy世界模型训练对大量3D标注数据依赖的问题。现有方法需要昂贵的3D标注，限制了其可扩展性和实际应用。

核心思路：论文的核心思路是利用更容易获取的2D图像标签，通过自监督预训练的方式，学习场景的几何和语义信息，从而减少对3D标注数据的需求。通过体渲染技术，将3D Occupancy预测结果投影到2D图像上，并利用2D标签进行监督。

技术框架：PreWorld包含两个主要阶段：自监督预训练阶段和全监督微调阶段。在预训练阶段，模型通过属性投影头生成场景的RGB、密度、语义等属性场。然后，利用体渲染技术将这些属性场渲染成2D图像，并与真实的2D图像进行比较，从而实现自监督学习。此外，还引入了状态条件预测模块，用于递归预测未来的Occupancy和自车轨迹。在微调阶段，使用少量的3D标注数据对模型进行微调，以进一步提升性能。

关键创新：PreWorld的关键创新在于利用2D标签进行自监督预训练，从而减少了对3D标注数据的依赖。属性投影头和体渲染技术的结合，使得可以有效地利用2D标签对3D Occupancy世界模型进行训练。状态条件预测模块能够直接预测未来的Occupancy和自车轨迹，提高了预测的准确性和效率。

关键设计：属性投影头用于将3D Occupancy特征投影到不同的属性场，例如RGB、密度和语义。体渲染技术用于将3D属性场渲染成2D图像。损失函数包括2D图像重建损失、密度损失和语义损失。状态条件预测模块采用GRU结构，用于递归预测未来的Occupancy和自车轨迹。

🖼️ 关键图片

📊 实验亮点

PreWorld在nuScenes数据集上进行了广泛的实验，结果表明，在3D Occupancy预测、4D Occupancy预测和运动规划任务中，PreWorld取得了与全监督方法相媲美的性能，同时显著减少了对3D标注数据的需求。例如，在3D Occupancy预测任务上，PreWorld在仅使用少量3D标注数据的情况下，达到了与使用大量3D标注数据的全监督方法相当的精度。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航等领域，降低了对昂贵3D标注数据的依赖，提高了模型的可扩展性和泛化能力。通过更准确的3D环境感知和未来预测，可以提升自动驾驶系统的安全性、可靠性和智能化水平，例如更精准的路径规划和避障。

📄 摘要（原文）

Understanding world dynamics is crucial for planning in autonomous driving. Recent methods attempt to achieve this by learning a 3D occupancy world model that forecasts future surrounding scenes based on current observation. However, 3D occupancy labels are still required to produce promising results. Considering the high annotation cost for 3D outdoor scenes, we propose a semi-supervised vision-centric 3D occupancy world model, PreWorld, to leverage the potential of 2D labels through a novel two-stage training paradigm: the self-supervised pre-training stage and the fully-supervised fine-tuning stage. Specifically, during the pre-training stage, we utilize an attribute projection head to generate different attribute fields of a scene (e.g., RGB, density, semantic), thus enabling temporal supervision from 2D labels via volume rendering techniques. Furthermore, we introduce a simple yet effective state-conditioned forecasting module to recursively forecast future occupancy and ego trajectory in a direct manner. Extensive experiments on the nuScenes dataset validate the effectiveness and scalability of our method, and demonstrate that PreWorld achieves competitive performance across 3D occupancy prediction, 4D occupancy forecasting and motion planning tasks.

Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理