S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation

📄 arXiv: 2505.24139v2 📥 PDF

作者: Yichen Xie, Runsheng Xu, Tong He, Jyh-Jing Hwang, Katie Luo, Jingwei Ji, Hubert Lin, Letian Chen, Yiren Lu, Zhaoqi Leng, Dragomir Anguelov, Mingxing Tan

分类: cs.CV, cs.AI

发布日期: 2025-05-30 (更新: 2025-06-03)

备注: Accepted by CVPR2025; Project website: s4-driver.github.io


💡 一句话要点

S4-Driver:基于时空视觉表征的可扩展自监督驾驶多模态大语言模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 多模态大语言模型 自监督学习 运动规划 3D视觉表征

📋 核心要点

  1. 现有端到端自动驾驶方法依赖人工标注或在2D图像空间预训练,忽略了3D空间规划的优势。
  2. S4-Driver提出一种稀疏体素策略,将MLLM的视觉表征无缝转换到3D空间,无需微调视觉编码器。
  3. 实验表明,S4-Driver在nuScenes和Waymo数据集上优于现有监督方法,且具备良好的可扩展性。

📝 摘要(中文)

多模态大语言模型(MLLM)的最新进展激发了人们对自动驾驶端到端运动规划方法的强烈兴趣。许多端到端方法依赖于人工标注来学习中间感知和预测任务,而纯粹的自监督方法——直接从传感器输入学习以生成规划轨迹,无需人工标注——通常表现不如最先进水平。我们观察到输入表征空间的一个关键差距:构建在MLLM上的端到端方法通常使用2D图像空间中的推理任务进行预训练,而不是自动驾驶车辆进行规划的原生3D空间。为此,我们提出了S4-Driver,一种基于流行的PaLI多模态大语言模型的可扩展自监督运动规划算法,具有时空视觉表征。S4-Driver使用一种新颖的稀疏体素策略,将MLLM强大的视觉表征从透视视图无缝转换到3D空间,而无需微调视觉编码器。这种表征聚合了多视角和多帧视觉输入,并能够更好地预测3D空间中的规划轨迹。为了验证我们的方法,我们在nuScenes和Waymo Open Motion Dataset(使用内部相机数据)上进行了实验。结果表明,S4-Driver的性能优于现有的监督多任务方法,同时不需要人工标注。它还展示了在大量未标注驾驶日志上进行预训练时的良好可扩展性。

🔬 方法详解

问题定义:现有端到端自动驾驶方法要么依赖于大量的人工标注数据进行中间感知和预测任务的学习,要么在2D图像空间进行预训练,这与自动驾驶车辆在3D空间中进行规划的实际情况存在差距。纯自监督方法虽然避免了人工标注,但性能通常不如监督方法。因此,如何有效地利用自监督学习,并弥合2D图像空间和3D规划空间之间的鸿沟,是本文要解决的关键问题。

核心思路:S4-Driver的核心思路是利用多模态大语言模型(MLLM)强大的视觉表征能力,并将其从2D图像空间转换到3D空间,从而实现端到端的自监督运动规划。通过将多视角和多帧的视觉信息聚合到3D空间中,S4-Driver能够更好地理解场景的几何结构和动态变化,从而更准确地预测规划轨迹。

技术框架:S4-Driver基于PaLI多模态大语言模型构建,其整体框架包括以下几个主要模块:1) 多视角多帧图像输入;2) 视觉编码器(PaLI的视觉部分);3) 稀疏体素转换模块,将视觉特征从透视视图转换到3D空间;4) 轨迹预测模块,基于3D视觉表征生成规划轨迹。整个流程无需人工标注,通过自监督学习直接从传感器输入到规划轨迹。

关键创新:S4-Driver最重要的技术创新点在于其稀疏体素转换策略。该策略能够将MLLM强大的视觉表征从2D图像空间无缝转换到3D空间,而无需对视觉编码器进行微调。这种方法不仅保留了MLLM的预训练知识,还避免了在3D空间中重新训练视觉编码器的巨大计算成本。与现有方法相比,S4-Driver能够更有效地利用MLLM的视觉表征能力,并将其应用于3D运动规划任务。

关键设计:S4-Driver的关键设计包括:1) 稀疏体素的构建方式,如何选择合适的体素大小和密度,以平衡计算成本和表征能力;2) 多视角和多帧信息的聚合策略,如何有效地融合不同视角和时间的信息,以提高场景理解的准确性;3) 轨迹预测模块的设计,如何利用3D视觉表征生成平滑、安全和高效的规划轨迹。具体的损失函数和网络结构等细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

S4-Driver在nuScenes和Waymo Open Motion Dataset上进行了实验,结果表明其性能优于现有的监督多任务方法,同时不需要人工标注。具体性能数据和提升幅度需要在论文中查找(未知)。该研究还展示了S4-Driver在大量未标注驾驶日志上进行预训练时的良好可扩展性,这表明其具有很强的实际应用潜力。

🎯 应用场景

S4-Driver的研究成果可应用于自动驾驶、机器人导航等领域。通过利用大量无标注数据进行自监督学习,可以降低对人工标注的依赖,加速自动驾驶技术的研发和部署。此外,该方法还可以扩展到其他需要3D场景理解和运动规划的任务中,例如无人机送货、智能仓储等。

📄 摘要(原文)

The latest advancements in multi-modal large language models (MLLMs) have spurred a strong renewed interest in end-to-end motion planning approaches for autonomous driving. Many end-to-end approaches rely on human annotations to learn intermediate perception and prediction tasks, while purely self-supervised approaches--which directly learn from sensor inputs to generate planning trajectories without human annotations often underperform the state of the art. We observe a key gap in the input representation space: end-to-end approaches built on MLLMs are often pretrained with reasoning tasks in 2D image space rather than the native 3D space in which autonomous vehicles plan. To this end, we propose S4-Driver, a scalable self-supervised motion planning algorithm with spatio-temporal visual representation, based on the popular PaLI multimodal large language model. S4-Driver uses a novel sparse volume strategy to seamlessly transform the strong visual representation of MLLMs from perspective view to 3D space without the need to finetune the vision encoder. This representation aggregates multi-view and multi-frame visual inputs and enables better prediction of planning trajectories in 3D space. To validate our method, we run experiments on both nuScenes and Waymo Open Motion Dataset (with in-house camera data). Results show that S4-Driver performs favorably against existing supervised multi-task approaches while requiring no human annotations. It also demonstrates great scalability when pretrained on large volumes of unannotated driving logs.