GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control
作者: Anthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shanghang Zhang
分类: cs.CV, cs.RO
发布日期: 2025-05-28 (更新: 2025-05-29)
备注: code will be released at https://github.com/antonioo-c/GeoDrive
💡 一句话要点
GeoDrive:融合3D几何信息的驾驶世界模型,实现精准动作控制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 自动驾驶 世界模型 3D几何 动态环境建模 动作控制 场景理解 仿真
📋 核心要点
- 现有世界模型在自动驾驶中难以保持3D几何一致性,且遮挡处理易引入伪影,影响安全评估。
- GeoDrive通过显式集成3D几何信息到世界模型中,增强空间理解和动作控制能力。
- 实验表明,GeoDrive在动作准确性和3D空间感知方面优于现有模型,并具备交互式场景编辑能力。
📝 摘要(中文)
世界模型的最新进展彻底改变了动态环境模拟,使系统能够预测未来状态并评估潜在动作。在自动驾驶中,这些能力有助于车辆预测其他道路使用者的行为,执行风险感知规划,加速仿真训练,并适应新场景,从而提高安全性和可靠性。目前的方法在保持鲁棒的3D几何一致性或在遮挡处理过程中累积伪影方面存在缺陷,这对于自动导航任务中的可靠安全评估至关重要。为了解决这个问题,我们引入了GeoDrive,它将鲁棒的3D几何条件显式地集成到驾驶世界模型中,以增强空间理解和动作可控性。具体来说,我们首先从输入帧中提取3D表示,然后根据用户指定的自车轨迹获得其2D渲染。为了实现动态建模,我们提出了一种动态编辑模块,在训练期间通过编辑车辆的位置来增强渲染效果。大量的实验表明,我们的方法在动作准确性和3D空间感知方面都显著优于现有模型,从而为更安全的自动驾驶带来更真实、适应性更强和更可靠的场景建模。此外,我们的模型可以推广到新的轨迹,并提供交互式场景编辑功能,例如对象编辑和对象轨迹控制。
🔬 方法详解
问题定义:现有自动驾驶世界模型在动态环境模拟中,难以保证3D几何一致性,尤其是在处理遮挡时容易产生伪影。这些问题导致模型预测不准确,影响自动驾驶系统的安全性和可靠性。因此,需要一种能够更准确地模拟驾驶场景,并具备更强的动作控制能力的世界模型。
核心思路:GeoDrive的核心思路是将鲁棒的3D几何信息显式地融入到世界模型中。通过从输入帧中提取3D表示,并基于自车轨迹进行2D渲染,模型能够更好地理解场景的空间结构。此外,引入动态编辑模块,通过在训练过程中编辑车辆位置来增强渲染效果,从而提高模型对动态环境的建模能力。
技术框架:GeoDrive的整体框架包含以下几个主要模块:1) 3D表示提取模块:从输入帧中提取场景的3D几何表示。2) 2D渲染模块:根据用户指定的自车轨迹,将3D表示渲染成2D图像。3) 动态编辑模块:在训练过程中,通过编辑车辆的位置来增强渲染效果,提高模型对动态环境的建模能力。4) 世界模型:基于提取的3D表示和渲染的2D图像,构建驾驶世界模型。
关键创新:GeoDrive最重要的创新点在于显式地将3D几何信息融入到世界模型中。与现有方法相比,GeoDrive能够更好地理解场景的空间结构,并减少遮挡带来的伪影。此外,动态编辑模块的引入,进一步提高了模型对动态环境的建模能力。
关键设计:GeoDrive的关键设计包括:1) 使用深度学习模型从输入帧中提取3D表示。2) 设计合适的损失函数,鼓励模型学习到准确的3D几何信息。3) 设计动态编辑模块,使其能够有效地增强渲染效果,并提高模型对动态环境的建模能力。具体的网络结构和参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了GeoDrive的有效性。实验结果表明,GeoDrive在动作准确性和3D空间感知方面显著优于现有模型。具体的性能数据和提升幅度在论文中有详细描述(未知)。此外,GeoDrive还展示了其泛化到新轨迹和交互式场景编辑的能力。
🎯 应用场景
GeoDrive可应用于自动驾驶仿真、风险评估、场景理解和轨迹预测等领域。通过提供更真实、适应性更强和更可靠的场景建模,GeoDrive能够提高自动驾驶系统的安全性和可靠性。此外,其交互式场景编辑功能,可用于创建各种复杂的驾驶场景,加速自动驾驶算法的开发和测试。
📄 摘要(原文)
Recent advancements in world models have revolutionized dynamic environment simulation, allowing systems to foresee future states and assess potential actions. In autonomous driving, these capabilities help vehicles anticipate the behavior of other road users, perform risk-aware planning, accelerate training in simulation, and adapt to novel scenarios, thereby enhancing safety and reliability. Current approaches exhibit deficiencies in maintaining robust 3D geometric consistency or accumulating artifacts during occlusion handling, both critical for reliable safety assessment in autonomous navigation tasks. To address this, we introduce GeoDrive, which explicitly integrates robust 3D geometry conditions into driving world models to enhance spatial understanding and action controllability. Specifically, we first extract a 3D representation from the input frame and then obtain its 2D rendering based on the user-specified ego-car trajectory. To enable dynamic modeling, we propose a dynamic editing module during training to enhance the renderings by editing the positions of the vehicles. Extensive experiments demonstrate that our method significantly outperforms existing models in both action accuracy and 3D spatial awareness, leading to more realistic, adaptable, and reliable scene modeling for safer autonomous driving. Additionally, our model can generalize to novel trajectories and offers interactive scene editing capabilities, such as object editing and object trajectory control.