EponaV2: Driving World Model with Comprehensive Future Reasoning
作者: Jiawei Xu, Zhizhou Zhong, Zhijian Shu, Mingkai Jia, Mingxiao Li, Jia-Wang Bian, Qian Zhang, Kaicheng Zhang, Jin Xie, Jian Yang, Wei Yin
分类: cs.CV
发布日期: 2026-05-14
💡 一句话要点
EponaV2:提出具备全面未来推理的驾驶世界模型,提升自动驾驶规划能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 世界模型 未来预测 几何语义 轨迹规划
📋 核心要点
- 现有自动驾驶感知-规划范式依赖大量人工标注,成本高昂且限制了可扩展性;而无感知世界模型缺乏足够的监督,难以进行全面的场景理解。
- EponaV2通过预测更全面的未来表征,包括几何和语义地图,从而增强模型对周围环境的理解和真实世界推理能力,进而改进轨迹规划。
- EponaV2引入流匹配组相对策略优化机制,并借鉴LLM的训练方法,进一步提升规划精度,并在NAVSIM基准测试中取得了SOTA性能。
📝 摘要(中文)
数据规模在通用人工智能的发展中起着关键作用。然而,目前自动驾驶领域流行的感知-规划范式严重依赖昂贵的人工标注来监督轨迹规划,这极大地限制了其可扩展性。另一方面,现有的无感知驾驶世界模型虽然取得了令人印象深刻的驾驶性能,但其用于规划的真实世界推理能力完全建立在下一帧图像预测的基础上。由于缺乏足够的监督,这些模型通常难以进行全面的场景理解,导致轨迹规划不尽如人意。本文提出了EponaV2,一种新颖的驾驶世界模型范式,它通过全面的未来推理实现高质量的规划。受到人类驾驶员预测3D几何和语义的启发,我们训练模型来预测更全面的未来表征,这些表征可以额外解码为未来的几何和语义地图。提取3D和语义模态使我们的模型能够深入理解周围环境,而未来预测任务显著增强了EponaV2的真实世界推理能力,最终改进了轨迹规划。此外,受到大型语言模型(LLM)训练方法的启发,我们引入了一种流匹配组相对策略优化机制,以进一步提高规划精度。EponaV2在三个NAVSIM基准测试中,在无感知模型中取得了最先进(SOTA)的性能(+1.3PDMS,+5.5EPDMS),证明了我们方法的有效性。
🔬 方法详解
问题定义:现有自动驾驶方法要么依赖于昂贵的人工标注数据进行监督学习,限制了数据规模;要么使用无感知世界模型,但这些模型仅基于下一帧图像预测,缺乏对场景的全面理解,导致轨迹规划效果不佳。痛点在于如何以较低的成本,提升模型对环境的理解和推理能力,从而实现更好的轨迹规划。
核心思路:EponaV2的核心思路是让模型学习预测更全面的未来表征,包括3D几何和语义地图。通过预测未来场景的几何和语义信息,模型能够更深入地理解周围环境,从而提升其推理能力和规划能力。这种方法模仿了人类驾驶员在驾驶过程中对未来场景的预判。
技术框架:EponaV2的整体框架包含以下几个主要模块:1)编码器:将当前帧的图像输入编码成潜在表征;2)世界模型:基于潜在表征预测未来的图像、几何和语义地图;3)解码器:将预测的未来表征解码成图像、几何和语义地图;4)规划器:基于预测的未来信息进行轨迹规划。此外,还引入了流匹配组相对策略优化机制来进一步提升规划精度。
关键创新:EponaV2的关键创新在于其全面的未来推理能力。与仅预测下一帧图像的传统世界模型不同,EponaV2能够预测未来的几何和语义地图,从而更全面地理解场景。此外,引入的流匹配组相对策略优化机制也进一步提升了规划精度。本质区别在于EponaV2不仅仅关注视觉表象,更关注场景的结构化信息。
关键设计:在训练过程中,EponaV2使用了多种损失函数来监督未来图像、几何和语义地图的预测。例如,可以使用L1或L2损失来衡量预测图像与真实图像之间的差异,使用交叉熵损失来衡量预测语义地图与真实语义地图之间的差异。网络结构方面,可以使用卷积神经网络(CNN)或Transformer来构建编码器、世界模型和解码器。流匹配组相对策略优化机制的具体实现细节(例如,如何定义流、如何进行组相对优化)在论文中应该有更详细的描述。
🖼️ 关键图片
📊 实验亮点
EponaV2在三个NAVSIM基准测试中,在无感知模型中取得了最先进(SOTA)的性能,PDMS指标提升了1.3,EPDMS指标提升了5.5。这些结果表明,通过引入全面的未来推理能力,EponaV2能够显著提升自动驾驶系统的规划性能。与现有无感知模型相比,EponaV2在环境理解和推理方面具有显著优势。
🎯 应用场景
EponaV2的研究成果可应用于各种自动驾驶场景,例如城市道路、高速公路和越野环境。通过提升自动驾驶系统对环境的理解和推理能力,可以提高驾驶安全性、舒适性和效率。此外,该方法还可以扩展到其他机器人领域,例如无人机导航和机器人操作,这些领域也需要对环境进行深入理解和预测。
📄 摘要(原文)
Data scaling plays a pivotal role in the pursuit of general intelligence. However, the prevailing perception-planning paradigm in autonomous driving relies heavily on expensive manual annotations to supervise trajectory planning, which severely limits its scalability. Conversely, although existing perception-free driving world models achieve impressive driving performance, their real-world reasoning ability for planning is solely built on next frame image forecasting. Due to the lack of enough supervision, these models often struggle with comprehensive scene understanding, resulting in unsatisfactory trajectory planning. In this paper, we propose EponaV2, a novel paradigm of driving world models, which achieves high-quality planning with comprehensive future reasoning. Inspired by how human drivers anticipate 3D geometry and semantics, we train our model to forecast more comprehensive future representations, which can be additionally decoded to future geometry and semantic maps. Extracting the 3D and semantic modalities enables our model to deeply understand the surrounding environment, and the future prediction task significantly enhances the real-world reasoning capabilities of EponaV2, ultimately leading to improved trajectory planning. Moreover, inspired by the training recipe of Large Language Models (LLMs), we introduce a flow matching group relative policy optimization mechanism to further improve planning accuracy. The state-of-the-art (SOTA) performances of EponaV2 among perception-free models on three NAVSIM benchmarks (+1.3PDMS, +5.5EPDMS) demonstrate the effectiveness of our methods.