X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving

作者: Chaoda Zheng, Sean Li, Jinhao Deng, Zhennan Wang, Shijia Chen, Liqiang Xiao, Ziheng Chi, Hongbin Lin, Kangjie Chen, Boyang Wang, Yu Zhang, Xianming Liu

分类: cs.CV, cs.AI

发布日期: 2026-03-20

备注: Technical Report

💡 一句话要点

提出X-World，一种可控的自车视角多相机世界模型，用于可扩展的端到端自动驾驶。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 世界模型 多视角视频生成 端到端学习 可控生成

📋 核心要点

现有端到端自动驾驶评估依赖真实道路测试，成本高昂、场景覆盖有限且难以复现，阻碍了VLA策略的快速迭代。
X-World提出一种动作条件的多相机生成世界模型，直接在视频空间模拟未来观测，并支持对交通、道路和外观的控制。
实验表明，X-World生成的多视角视频具有强视角一致性、稳定时间动态和高可控性，为可扩展评估奠定基础。

📝 摘要（中文）

在端到端自动驾驶时代，可扩展且可靠的评估变得越来越重要，其中视觉-语言-动作（VLA）策略直接将原始传感器流映射到驾驶动作。然而，当前的评估流程仍然严重依赖于实际道路测试，这既昂贵，又偏向于有限的场景覆盖，并且难以重现。这些挑战促使人们开发一种真实世界的模拟器，该模拟器可以在提议的动作下生成逼真的未来观测，同时在长时程内保持可控和稳定。我们提出了X-World，一种动作条件的多相机生成世界模型，可以直接在视频空间中模拟未来的观测。给定同步的多视角相机历史和未来的动作序列，X-World生成遵循指令动作的未来多相机视频流。为了确保可重现和可编辑的场景展开，X-World还支持对动态交通代理和静态道路元素的可选控制，并保留了用于外观级别控制（例如，天气和时间）的文本提示界面。除了世界模拟之外，X-World还通过调节外观提示同时保留底层动作和场景动态来实现视频风格迁移。X-World的核心是一个多视角潜在视频生成器，旨在显式地鼓励在各种控制信号下的跨视角几何一致性和时间连贯性。实验表明，X-World实现了高质量的多视角视频生成，具有（i）跨相机的强视角一致性，（ii）长时程上的稳定时间动态，以及（iii）通过严格的动作跟随和对可选场景控制的忠实遵守实现的高可控性。这些特性使X-World成为可扩展和可重现评估的实用基础。

🔬 方法详解

问题定义：论文旨在解决端到端自动驾驶中，现有评估方法依赖真实道路测试带来的成本高、覆盖率低、难以复现等问题。现有方法难以生成逼真的、可控的未来场景，从而限制了自动驾驶策略的评估和迭代效率。

核心思路：论文的核心思路是构建一个可控的多相机生成世界模型，该模型能够根据历史视频、未来动作序列以及可选的场景控制信号（如交通、道路、天气）生成逼真的未来多视角视频。通过在视频空间直接生成未来观测，避免了复杂的3D重建和渲染过程，提高了生成效率和真实感。

技术框架：X-World的整体框架包含以下几个主要模块：1) 多视角视频编码器：用于提取历史多视角视频的潜在表示。2) 动作编码器：用于编码未来的动作序列。3) 场景控制编码器：用于编码可选的场景控制信号（如交通、道路、天气）。4) 多视角潜在视频生成器：这是X-World的核心模块，它根据历史视频的潜在表示、未来动作序列和场景控制信号生成未来的多视角视频。该生成器被设计为显式地鼓励跨视角几何一致性和时间连贯性。

关键创新：X-World的关键创新在于其多视角潜在视频生成器，该生成器能够显式地鼓励跨视角几何一致性和时间连贯性。传统的视频生成模型通常只关注单视角视频的生成，而忽略了多视角视频之间的几何关系。X-World通过引入跨视角一致性损失和时间连贯性损失，使得生成的多视角视频更加逼真和稳定。此外，X-World还支持对动态交通代理和静态道路元素的可选控制，以及对外观级别控制（例如，天气和时间）的文本提示界面，从而提高了生成场景的可控性。

关键设计：X-World的多视角潜在视频生成器采用了Transformer架构，并引入了注意力机制来建模不同视角之间的关系。为了鼓励跨视角几何一致性，论文设计了一种跨视角一致性损失，该损失惩罚了不同视角下相同物体的潜在表示之间的差异。为了鼓励时间连贯性，论文设计了一种时间连贯性损失，该损失惩罚了相邻帧之间的潜在表示的差异。此外，论文还使用了对抗训练来提高生成视频的真实感。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，X-World能够生成高质量的多视角视频，具有强大的视角一致性、稳定的时间动态和高度的可控性。通过与现有视频生成模型进行对比，X-World在生成视频的真实感和可控性方面均取得了显著提升。定量指标和定性结果均验证了X-World的有效性。

🎯 应用场景

X-World可应用于自动驾驶策略的离线评估、强化学习训练、以及数据增强等方面。通过生成大量逼真且可控的驾驶场景，可以加速自动驾驶算法的开发和验证过程，降低实际道路测试的成本和风险。此外，X-World还可以用于生成特定场景下的合成数据，以增强自动驾驶算法的鲁棒性。

📄 摘要（原文）

Scalable and reliable evaluation is increasingly critical in the end-to-end era of autonomous driving, where vision--language--action (VLA) policies directly map raw sensor streams to driving actions. Yet, current evaluation pipelines still rely heavily on real-world road testing, which is costly, biased toward limited scenario coverage, and difficult to reproduce. These challenges motivate a real-world simulator that can generate realistic future observations under proposed actions, while remaining controllable and stable over long horizons. We present X-World, an action-conditioned multi-camera generative world model that simulates future observations directly in video space. Given synchronized multi-view camera history and a future action sequence, X-World generates future multi-camera video streams that follow the commanded actions. To ensure reproducible and editable scene rollouts, X-World further supports optional controls over dynamic traffic agents and static road elements, and retains a text-prompt interface for appearance-level control (e.g., weather and time of day). Beyond world simulation, X-World also enables video style transfer by conditioning on appearance prompts while preserving the underlying action and scene dynamics. At the core of X-World is a multi-view latent video generator designed to explicitly encourage cross-view geometric consistency and temporal coherence under diverse control signals. Experiments show that X-World achieves high-quality multi-view video generation with (i) strong view consistency across cameras, (ii) stable temporal dynamics over long rollouts, and (iii) high controllability with strict action following and faithful adherence to optional scene controls. These properties make X-World a practical foundation for scalable and reproducible evaluation.

X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理