HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation

作者: Xin Zhou, Dingkang Liang, Sifan Tu, Xiwu Chen, Yikang Ding, Dingyuan Zhang, Feiyang Tan, Hengshuang Zhao, Xiang Bai

分类: cs.CV

发布日期: 2025-01-24 (更新: 2025-08-13)

备注: Accepted by ICCV 2025. The code is available at https://github.com/LMD0311/HERMES

🔗 代码/项目: GITHUB

💡 一句话要点

HERMES：用于同步3D场景理解与生成的统一自动驾驶世界模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 世界模型 场景理解 场景生成 鸟瞰图 BEV 多视角融合

📋 核心要点

现有驾驶世界模型(DWMs)缺乏场景理解能力，无法充分解释和推理驾驶环境。
HERMES通过统一框架，利用BEV表示和世界查询，整合3D场景理解和未来场景生成。
实验表明，HERMES在nuScenes和OmniDrive-nuScenes数据集上显著提升了场景生成和理解的性能。

📝 摘要（中文）

本文提出了一种名为HERMES的统一驾驶世界模型，旨在解决现有驾驶世界模型(DWMs)仅限于场景生成而忽略了场景理解的局限性。HERMES通过统一的框架无缝集成了3D场景理解和未来场景演化（生成）。具体而言，HERMES利用鸟瞰图(BEV)表示来整合多视角空间信息，同时保留了几何关系和交互。此外，我们引入了世界查询，通过大型语言模型中的因果注意力将世界知识融入BEV特征，从而为理解和生成任务提供上下文丰富的信息。在nuScenes和OmniDrive-nuScenes数据集上的综合研究验证了该方法的有效性。HERMES实现了最先进的性能，将生成误差降低了32.4%，并将CIDEr等理解指标提高了8.0%。模型和代码将在https://github.com/LMD0311/HERMES 公开。

🔬 方法详解

问题定义：现有驾驶世界模型主要关注未来场景的生成，而忽略了对当前场景的理解，例如对场景中物体的识别、关系推理等。这种缺失限制了模型在复杂驾驶环境中的应用，无法进行更高级的决策和规划。

核心思路：HERMES的核心思路是将3D场景理解和未来场景生成统一到一个框架中，通过共享的BEV特征表示和世界知识注入，使模型能够同时理解当前场景并预测未来演化。这种统一的设计使得理解和生成任务可以相互促进，提高整体性能。

技术框架：HERMES的整体架构包含以下几个主要模块：1) 多视角图像特征提取：从多个摄像头图像中提取特征。2) BEV特征构建：将多视角特征融合到BEV空间中，形成统一的场景表示。3) 世界查询：利用大型语言模型，将世界知识融入BEV特征。4) 场景理解模块：基于BEV特征进行物体检测、场景分割等任务。5) 场景生成模块：基于BEV特征预测未来场景的演化。

关键创新：HERMES的关键创新在于：1) 统一的场景理解和生成框架，打破了两者之间的壁垒。2) 世界查询机制，通过大型语言模型将外部知识融入场景表示，增强了模型的推理能力。3) 基于BEV的特征表示，有效整合了多视角信息，并保留了几何关系。

关键设计：世界查询模块使用因果注意力机制，将世界知识融入BEV特征。损失函数包括场景理解任务的损失（如检测损失、分割损失）和场景生成任务的损失（如生成误差）。BEV特征的分辨率和范围是重要的参数，需要根据具体场景进行调整。

🖼️ 关键图片

📊 实验亮点

HERMES在nuScenes和OmniDrive-nuScenes数据集上取得了显著的性能提升。在场景生成方面，HERMES将生成误差降低了32.4%，表明其预测未来场景的能力更强。在场景理解方面，HERMES将CIDEr指标提高了8.0%，表明其对场景的理解更加准确和全面。这些结果表明HERMES在自动驾驶领域具有很高的应用潜力。

🎯 应用场景

HERMES可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统，提升车辆对周围环境的感知和预测能力。通过理解当前场景并预测未来演化，HERMES可以帮助车辆做出更安全、更合理的驾驶决策，例如提前预判潜在的碰撞风险，优化行驶路径等。此外，该模型还可用于驾驶模拟器和自动驾驶算法的测试与验证。

📄 摘要（原文）

Driving World Models (DWMs) have become essential for autonomous driving by enabling future scene prediction. However, existing DWMs are limited to scene generation and fail to incorporate scene understanding, which involves interpreting and reasoning about the driving environment. In this paper, we present a unified Driving World Model named HERMES. We seamlessly integrate 3D scene understanding and future scene evolution (generation) through a unified framework in driving scenarios. Specifically, HERMES leverages a Bird's-Eye View (BEV) representation to consolidate multi-view spatial information while preserving geometric relationships and interactions. We also introduce world queries, which incorporate world knowledge into BEV features via causal attention in the Large Language Model, enabling contextual enrichment for understanding and generation tasks. We conduct comprehensive studies on nuScenes and OmniDrive-nuScenes datasets to validate the effectiveness of our method. HERMES achieves state-of-the-art performance, reducing generation error by 32.4% and improving understanding metrics such as CIDEr by 8.0%. The model and code will be publicly released at https://github.com/LMD0311/HERMES.

HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理