Generating Multimodal Driving Scenes via Next-Scene Prediction

作者: Yanhao Wu, Haoyang Zhang, Tianwei Lin, Lichao Huang, Shujie Luo, Rui Wu, Congpei Qiu, Wei Ke, Tong Zhang

分类: cs.CV

发布日期: 2025-03-19 (更新: 2025-03-26)

备注: CVPR 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出UMGen，通过预测下一场景生成多模态自动驾驶场景，支持地图模态。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 场景生成 多模态学习 自回归模型 地图模态 动作感知 仿真测试

📋 核心要点

现有自动驾驶场景生成模型仅限于捕获有限的模态，无法生成可控场景以全面评估自动驾驶系统。
提出一种多模态生成框架，通过时间自回归和有序自回归组件，自回归地预测场景序列，并引入动作感知地图对齐模块。
该框架能够生成复杂、逼真的驾驶场景，保证多模态一致性，并提供对场景元素的细粒度控制。

📝 摘要（中文）

本文提出了一种多模态生成框架，用于自动驾驶场景生成，该框架集成了四种主要数据模态，包括新增的地图模态。通过对模态进行token化，我们的场景序列生成框架自回归地预测每个场景，并通过两阶段方法管理计算需求。时间自回归（TAR）组件捕获每个模态的帧间动态，而有序自回归（OAR）组件通过按固定顺序依次预测token来对齐每个场景内的模态。为了保持地图和自车动作模态之间的一致性，我们引入了动作感知地图对齐（AMA）模块，该模块应用基于自车动作的转换来维持这些模态之间的一致性。我们的框架有效地生成了复杂、逼真的长序列驾驶场景，确保了多模态一致性，并提供了对场景元素的细粒度控制。

🔬 方法详解

问题定义：现有自动驾驶场景生成方法主要痛点在于模态覆盖不全，特别是缺乏地图模态，限制了生成场景的多样性和可控性，无法满足自动驾驶系统全面评估的需求。此外，如何保证生成场景中不同模态之间的一致性也是一个挑战。

核心思路：论文的核心思路是利用自回归模型，通过预测下一场景的方式生成多模态驾驶场景序列。为了解决计算量大的问题，采用两阶段方法：首先使用时间自回归（TAR）组件捕获每个模态的帧间动态，然后使用有序自回归（OAR）组件对齐每个场景内的模态。为了保证地图和自车动作的一致性，引入了动作感知地图对齐（AMA）模块。

技术框架：整体框架包含三个主要组件：1) 时间自回归（TAR）组件，用于捕获每个模态的帧间动态；2) 有序自回归（OAR）组件，用于对齐每个场景内的模态，按固定顺序预测token；3) 动作感知地图对齐（AMA）模块，用于保持地图和自车动作模态之间的一致性。整个流程是：首先对输入的多模态数据进行token化，然后使用TAR组件预测每个模态的下一帧，接着使用OAR组件对齐不同模态，最后使用AMA模块调整地图模态，生成最终的场景。

关键创新：最重要的创新点在于引入了地图模态，并提出了动作感知地图对齐（AMA）模块，保证了地图和自车动作之间的一致性。这使得生成的场景更加真实和可控，能够更好地用于自动驾驶系统的评估。与现有方法相比，该方法能够生成包含更多模态、更复杂的驾驶场景。

关键设计：AMA模块的关键设计在于利用自车动作信息对地图进行变换，从而保证地图与自车行为的匹配。具体的变换方式未知，可能包括平移、旋转等操作。损失函数的设计也未知，但应该包含对不同模态预测结果的约束，以及对地图和自车动作一致性的约束。

🖼️ 关键图片

📊 实验亮点

论文重点在于提出了一个能够生成包含地图模态的多模态自动驾驶场景的框架。虽然摘要中没有给出具体的性能数据，但强调了该框架能够生成复杂、逼真的驾驶场景，保证多模态一致性，并提供对场景元素的细粒度控制。通过引入地图模态和AMA模块，显著提升了生成场景的真实性和可控性。

🎯 应用场景

该研究成果可应用于自动驾驶系统的仿真测试与验证，通过生成多样化、逼真的驾驶场景，能够更全面地评估自动驾驶算法的性能和安全性。此外，该技术还可以用于自动驾驶数据增强，扩充训练数据集，提高模型的泛化能力。未来，该技术有望应用于自动驾驶开发流程的各个环节，加速自动驾驶技术的落地。

📄 摘要（原文）

Generative models in Autonomous Driving (AD) enable diverse scene creation, yet existing methods fall short by only capturing a limited range of modalities, restricting the capability of generating controllable scenes for comprehensive evaluation of AD systems. In this paper, we introduce a multimodal generation framework that incorporates four major data modalities, including a novel addition of map modality. With tokenized modalities, our scene sequence generation framework autoregressively predicts each scene while managing computational demands through a two-stage approach. The Temporal AutoRegressive (TAR) component captures inter-frame dynamics for each modality while the Ordered AutoRegressive (OAR) component aligns modalities within each scene by sequentially predicting tokens in a fixed order. To maintain coherence between map and ego-action modalities, we introduce the Action-aware Map Alignment (AMA) module, which applies a transformation based on the ego-action to maintain coherence between these modalities. Our framework effectively generates complex, realistic driving scenes over extended sequences, ensuring multimodal consistency and offering fine-grained control over scene elements. Project page: https://yanhaowu.github.io/UMGen/

Generating Multimodal Driving Scenes via Next-Scene Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理