Xiaomi EV World Model: A Joint World Model Integrating Reconstruction and Generation for Autonomous Driving

📄 arXiv: 2605.18137v1 📥 PDF

作者: Lijun Zhou, Hongcheng Luo, Zhenxin Zhu, Cheng Chi, Mingfei Tu, Kaixin Xiong, Lei Gong, Zhanqian Wu, Zehan Zhang, Fangzhen Li, Hao Li, Yingying Shen, Jiale He, Haohui Zhu, Shan Zhao, Kai Wang, Zhiwei Zhan, Yuechuan Pu, Kaiyuan Tan, Ruiling Yang, Xianqi Wang, Tianyi Yan, Jiawei Zhou, Lei Zhang, Jingyang Zhao, Xi Zhou, Chitian Sun, Chenming Wu, Jiong Deng, Hongwei Xie, Ming Lu, Kun Ma, Long Chen, Guang Chen, Hangjun Ye, Bing Wang, Haiyang Sun

分类: cs.CV

发布日期: 2026-05-18


💡 一句话要点

小米提出JWM,融合重建与生成的世界模型,用于自动驾驶。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 自动驾驶 场景重建 视频生成 跨帧一致性 3D高斯 因果生成

📋 核心要点

  1. 现有世界模型在自动驾驶中面临挑战,尤其是在跨帧空间一致性和生成视频质量方面。
  2. 论文提出JWM,通过WorldRec进行场景重建,WorldGen进行视频生成,实现二者的深度融合。
  3. 实验表明,JWM在生成稳定性、跨帧一致性和视觉保真度方面均有提升,为自动驾驶应用奠定基础。

📝 摘要(中文)

本报告提出了一个统一的技术系统,旨在解决自动驾驶世界模型的两个核心能力:世界表征和世界生成。对于世界表征,我们提出了WorldRec,一个由稀疏场景查询驱动的前馈重建架构。WorldRec在3D空间中初始化结构化查询,利用它们来聚合跨视角、跨时间的特征,从而自然地强制执行跨帧的空间一致性,并产生紧凑而高保真的3D高斯场景表示。对于世界生成,我们提出了WorldGen,一个两阶段训练框架,包括双向预训练,然后通过三个渐进阶段(Teacher Forcing、ODE蒸馏和DMD)进行因果微调,从而能够在尽可能少的去噪步骤中实现高质量的在线因果视频生成。基于这两个模块,我们进一步引入了JWM,它深度集成了WorldRec和WorldGen,以在生成稳定性、跨帧一致性和视觉保真度方面实现协同增益,为自动驾驶中的闭环仿真、数据合成和端到端训练提供了坚实的基础。

🔬 方法详解

问题定义:自动驾驶需要高质量的世界模型,用于仿真、数据合成和端到端训练。现有方法在世界表征和世界生成方面存在不足,例如跨帧空间一致性差、生成视频质量不高、计算效率低等。这些问题限制了世界模型在自动驾驶中的实际应用。

核心思路:论文的核心思路是将世界表征(重建)和世界生成两个任务进行深度融合,利用重建模块提供更准确的场景信息,指导生成模块生成更逼真、更一致的视频。通过这种协同作用,可以克服现有方法的局限性,提高世界模型的整体性能。

技术框架:JWM包含两个主要模块:WorldRec和WorldGen。WorldRec负责场景重建,采用前馈架构,通过稀疏场景查询聚合跨视角、跨时间的特征,生成3D高斯场景表示。WorldGen负责视频生成,采用两阶段训练框架,包括双向预训练和因果微调。因果微调又分为三个阶段:Teacher Forcing、ODE蒸馏和DMD。这两个模块通过某种方式进行集成,具体集成方式未知。

关键创新:论文的关键创新在于将重建和生成两个模块进行深度融合,实现协同增益。WorldRec利用稀疏查询和跨视角、跨时间特征聚合,提高了场景重建的质量和效率。WorldGen采用两阶段训练框架和多阶段因果微调,提高了视频生成的质量和稳定性。JWM的整体架构和训练方法是创新的。

关键设计:WorldRec的关键设计包括稀疏场景查询的初始化方法、特征聚合策略和3D高斯场景表示。WorldGen的关键设计包括双向预训练的目标函数、ODE蒸馏的具体实现和DMD算法的应用。具体的参数设置、损失函数和网络结构等技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了JWM,通过深度融合WorldRec和WorldGen,在生成稳定性、跨帧一致性和视觉保真度方面取得了显著提升。具体性能数据和对比基线未知,但摘要强调了JWM在自动驾驶应用中的潜力。

🎯 应用场景

该研究成果可应用于自动驾驶的闭环仿真、数据合成和端到端训练。高质量的世界模型可以帮助自动驾驶系统更好地理解和预测周围环境,从而提高安全性和可靠性。此外,该技术还可以用于游戏、虚拟现实等领域,生成逼真的虚拟场景。

📄 摘要(原文)

This report presents a unified technical system addressing the two core capabilities of world models for autonomous driving: world representation and world generation. For world representation, we propose WorldRec, a feed-forward reconstruction architecture driven by sparse scene queries. WorldRec initializes structured queries in 3D space, leveraging them to aggregate cross-view, cross-temporal features, thereby naturally enforcing spatial consistency across frames and yielding compact yet high-fidelity 3D Gaussian scene representations. For world generation, we propose WorldGen, a two-stage training framework of bidirectional pretraining followed by causal fine-tuning through three progressive stages (Teacher Forcing, ODE distillation, and DMD), enabling high-quality online causal video generation in as few as 4 denoising steps. Building on both modules, we further introduce the JWM, which deeply integrates WorldRec and WorldGen to achieve synergistic gains in generation stability, cross-frame consistency, and visual fidelity, providing a solid foundation for closed-loop simulation, data synthesis, and end-to-end training in autonomous driving.