LMGenDrive: Bridging Multimodal Understanding and Generative World Modeling for End-to-End Driving

📄 arXiv: 2604.08719v1 📥 PDF

作者: Hao Shao, Letian Wang, Yang Zhou, Yuxuan Hu, Zhuofan Zong, Steven L. Waslander, Wei Zhan, Hongsheng Li

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-09


💡 一句话要点

LMGenDrive:融合多模态理解与生成式世界模型的端到端自动驾驶

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 多模态理解 生成式世界模型 LLM 端到端学习

📋 核心要点

  1. 现有自动驾驶方法在长尾和开放世界场景泛化能力不足,难以应对罕见和安全关键情况。
  2. LMGenDrive结合LLM的多模态理解和生成式世界模型,实现端到端闭环驾驶,提升泛化性。
  3. 实验表明,LMGenDrive在指令跟随、时空理解和对罕见场景的鲁棒性方面显著优于现有方法。

📝 摘要(中文)

近年来,自动驾驶取得了显著进展,但泛化到长尾和开放世界场景仍然是大规模部署的主要瓶颈。为了解决这一挑战,一些工作使用LLM和VLM进行视觉-语言理解和推理,使车辆能够在生成动作时解释罕见和安全关键的情况。另一些研究生成式世界模型,以捕捉驾驶场景的时空演变,允许智能体在行动前想象可能的未来。受人类智能统一理解和想象的启发,我们探索了一种用于自动驾驶的统一模型。我们提出了LMGenDrive,这是第一个将基于LLM的多模态理解与生成式世界模型相结合的端到端闭环驾驶框架。给定多视角相机输入和自然语言指令,LMGenDrive生成未来的驾驶视频和控制信号。这种设计提供了互补的优势:视频预测提高了时空场景建模,而LLM则贡献了来自大规模预训练的强大语义先验和指令对齐。我们进一步提出了一种渐进式三阶段训练策略,从视觉预训练到多步长程驾驶,以提高稳定性和性能。LMGenDrive支持低延迟在线规划和自回归离线视频生成。实验表明,它在具有挑战性的闭环基准测试中显著优于先前的方法,在指令跟随、时空理解和对罕见场景的鲁棒性方面有明显的提升。这些结果表明,统一多模态理解和生成是更具泛化性和鲁棒性的具身决策系统的有希望的方向。

🔬 方法详解

问题定义:现有自动驾驶系统难以泛化到长尾和开放世界场景,尤其是在处理罕见和安全关键情况时。它们缺乏对复杂场景的理解和推理能力,以及对未来场景的预测能力,导致决策失误。现有方法要么侧重于视觉-语言理解,要么侧重于生成式世界模型,缺乏统一的框架。

核心思路:LMGenDrive的核心思路是将LLM的多模态理解能力与生成式世界模型的时空预测能力相结合,从而实现更鲁棒和泛化的自动驾驶。通过LLM理解自然语言指令和场景信息,并利用生成式世界模型预测未来场景,从而做出更合理的驾驶决策。这种设计模仿了人类智能的理解和想象能力。

技术框架:LMGenDrive的整体框架包括以下几个主要模块:1) 多视角相机输入;2) LLM-based多模态理解模块,用于解析自然语言指令和场景信息;3) 生成式世界模型,用于预测未来驾驶视频;4) 控制信号生成模块,根据预测的未来场景和指令生成控制信号。整个流程是端到端的,可以进行闭环驾驶。

关键创新:LMGenDrive的关键创新在于将LLM的多模态理解能力与生成式世界模型相结合,提出了一个统一的自动驾驶框架。与现有方法相比,LMGenDrive能够更好地理解复杂场景和自然语言指令,并预测未来场景,从而做出更合理的驾驶决策。此外,该框架还提出了一种渐进式三阶段训练策略,提高了稳定性和性能。

关键设计:LMGenDrive的关键设计包括:1) 使用LLM进行多模态理解,利用其强大的语义先验和指令对齐能力;2) 使用生成式世界模型进行时空场景建模,提高对未来场景的预测能力;3) 提出渐进式三阶段训练策略,包括视觉预训练、多步长程驾驶等,以提高稳定性和性能。具体的网络结构和损失函数等细节未在摘要中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LMGenDrive在具有挑战性的闭环基准测试中显著优于现有方法。在指令跟随、时空理解和对罕见场景的鲁棒性方面有明显的提升。具体性能数据和对比基线未在摘要中给出,属于未知信息。但总体而言,实验结果验证了LMGenDrive的有效性。

🎯 应用场景

LMGenDrive具有广泛的应用前景,可用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。该研究的实际价值在于提高自动驾驶系统的鲁棒性和泛化能力,使其能够更好地应对复杂和未知的场景。未来,该技术有望应用于无人出租车、自动驾驶物流和智能交通系统等领域。

📄 摘要(原文)

Recent years have seen remarkable progress in autonomous driving, yet generalization to long-tail and open-world scenarios remains a major bottleneck for large-scale deployment. To address this challenge, some works use LLMs and VLMs for vision-language understanding and reasoning, enabling vehicles to interpret rare and safety-critical situations when generating actions. Others study generative world models to capture the spatio-temporal evolution of driving scenes, allowing agents to imagine possible futures before acting. Inspired by human intelligence, which unifies understanding and imagination, we explore a unified model for autonomous driving. We present LMGenDrive, the first framework that combines LLM-based multimodal understanding with generative world models for end-to-end closed-loop driving. Given multi-view camera inputs and natural-language instructions, LMGenDrive generates both future driving videos and control signals. This design provides complementary benefits: video prediction improves spatio-temporal scene modeling, while the LLM contributes strong semantic priors and instruction grounding from large-scale pretraining. We further propose a progressive three-stage training strategy, from vision pretraining to multi-step long-horizon driving, to improve stability and performance. LMGenDrive supports both low-latency online planning and autoregressive offline video generation. Experiments show that it significantly outperforms prior methods on challenging closed-loop benchmarks, with clear gains in instruction following, spatio-temporal understanding, and robustness to rare scenarios. These results suggest that unifying multimodal understanding and generation is a promising direction for more generalizable and robust embodied decision-making systems.