Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving

作者: Linbo Wang, Yupeng Zheng, Qiang Chen, Shiwei Li, Yichen Zhang, Zebin Xing, Qichao Zhang, Xiang Li, Deheng Qian, Pengxuan Yang, Yihang Dong, Ce Hao, Xiaoqing Ye, Junyu han, Yifeng Pan, Dongbin Zhao

分类: cs.CV, cs.RO

发布日期: 2026-03-25

💡 一句话要点

Latent-WAM：基于潜在世界行动建模的端到端自动驾驶框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 世界模型 轨迹规划 潜在表征 Transformer

📋 核心要点

现有世界模型自动驾驶方法在表征压缩、空间理解和时间动态利用方面存在不足，限制了规划性能。
Latent-WAM通过空间感知压缩编码器和动态潜在世界模型，提升了世界表征的质量和规划能力。
实验表明，Latent-WAM在两个自动驾驶数据集上取得了SOTA结果，且模型参数量更小，训练数据需求更低。

📝 摘要（中文）

本文提出了一种高效的端到端自动驾驶框架Latent-WAM，它通过空间感知和动态感知的潜在世界表征实现强大的轨迹规划。现有的基于世界模型的规划器存在表征压缩不足、空间理解有限以及时间动态利用不足的问题，导致在有限的数据和计算预算下规划效果欠佳。Latent-WAM通过两个核心模块解决了这些限制：空间感知压缩世界编码器（SCWE），它从基础模型中提取几何知识，并通过可学习的查询将多视角图像压缩成紧凑的场景tokens；动态潜在世界模型（DLWM），它采用因果Transformer自回归地预测未来世界状态，并以历史视觉和运动表征为条件。在NAVSIM v2和HUGSIM上的大量实验表明，该方法取得了新的state-of-the-art结果：在NAVSIM v2上达到89.3 EPDMS，在HUGSIM上达到28.9 HD-Score，超过了最佳的无感知方法3.2 EPDMS，同时显著减少了训练数据，并使用了一个紧凑的104M参数模型。

🔬 方法详解

问题定义：现有基于世界模型的自动驾驶规划方法，由于世界表征压缩不足，对环境的空间理解有限，以及对时间动态的利用不充分，导致在数据和计算资源受限的情况下，规划性能受到限制。这些方法难以有效地从多视角图像中提取关键信息，并预测未来环境状态，从而影响自动驾驶系统的决策。

核心思路：Latent-WAM的核心思路是构建一个高效且紧凑的潜在世界表征，该表征能够充分捕捉环境的空间几何信息和时间动态变化。通过空间感知压缩编码器（SCWE）提取几何知识并压缩多视角图像，然后利用动态潜在世界模型（DLWM）预测未来世界状态，从而实现更准确和高效的轨迹规划。

技术框架：Latent-WAM的整体框架包含两个主要模块：SCWE和DLWM。SCWE负责将多视角图像压缩成紧凑的场景tokens，它利用可学习的查询从基础模型中提取几何知识。DLWM则是一个因果Transformer，它以历史视觉和运动表征为条件，自回归地预测未来世界状态。整个框架通过端到端的方式进行训练，以优化轨迹规划性能。

关键创新：Latent-WAM的关键创新在于其空间感知压缩世界编码器（SCWE）和动态潜在世界模型（DLWM）的设计。SCWE能够有效地从多视角图像中提取几何信息，并将其压缩成紧凑的表征，而DLWM则能够利用历史信息预测未来世界状态，从而实现更准确的轨迹规划。与现有方法相比，Latent-WAM在表征压缩、空间理解和时间动态利用方面都取得了显著提升。

关键设计：SCWE采用可学习的查询来提取几何知识，并使用注意力机制将多视角图像压缩成场景tokens。DLWM使用因果Transformer来建模时间依赖关系，并采用自回归的方式预测未来世界状态。损失函数的设计旨在优化轨迹规划性能，包括轨迹的平滑性、安全性和与目标点的接近程度。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

Latent-WAM在NAVSIM v2和HUGSIM数据集上取得了state-of-the-art的结果，分别达到了89.3 EPDMS和28.9 HD-Score。相比于最佳的无感知方法，Latent-WAM在NAVSIM v2上提升了3.2 EPDMS，同时显著减少了训练数据，并使用了一个紧凑的104M参数模型。这些结果表明，Latent-WAM在自动驾驶规划方面具有显著的优势。

🎯 应用场景

Latent-WAM具有广泛的应用前景，可应用于各种自动驾驶场景，包括城市道路、高速公路和越野环境。该研究成果有助于提高自动驾驶系统的安全性、可靠性和效率，并为未来的自动驾驶技术发展奠定基础。此外，该方法也可应用于机器人导航、虚拟现实等领域。

📄 摘要（原文）

We introduce Latent-WAM, an efficient end-to-end autonomous driving framework that achieves strong trajectory planning through spatially-aware and dynamics-informed latent world representations. Existing world-model-based planners suffer from inadequately compressed representations, limited spatial understanding, and underutilized temporal dynamics, resulting in sub-optimal planning under constrained data and compute budgets. Latent-WAM addresses these limitations with two core modules: a Spatial-Aware Compressive World Encoder (SCWE) that distills geometric knowledge from a foundation model and compresses multi-view images into compact scene tokens via learnable queries, and a Dynamic Latent World Model (DLWM) that employs a causal Transformer to autoregressively predict future world status conditioned on historical visual and motion representations. Extensive experiments on NAVSIM v2 and HUGSIM demonstrate new state-of-the-art results: 89.3 EPDMS on NAVSIM v2 and 28.9 HD-Score on HUGSIM, surpassing the best prior perception-free method by 3.2 EPDMS with significantly less training data and a compact 104M-parameter model.

Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理