Probing Multimodal LLMs as World Models for Driving

📄 arXiv: 2405.05956v2 📥 PDF

作者: Shiva Sreeram, Tsun-Hsuan Wang, Alaa Maalouf, Guy Rosman, Sertac Karaman, Daniela Rus

分类: cs.RO, cs.CV

发布日期: 2024-05-09 (更新: 2024-10-25)

备注: https://github.com/sreeramsa/DriveSim https://www.youtube.com/watch?v=Fs8jgngOJzU


💡 一句话要点

评估多模态LLM在自动驾驶中的世界模型能力,揭示其在动态场景理解中的局限性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 自动驾驶 世界模型 动态场景理解 实验评估

📋 核心要点

  1. 现有MLLM在静态图像理解方面表现出色,但在动态驾驶场景中缺乏连贯的叙事能力,导致理解不准确。
  2. 论文通过车载摄像头视角评估MLLM作为世界模型的能力,分析其在自车动力学、交互、轨迹规划和开放场景推理方面的表现。
  3. 引入Eval-LLM-Drive数据集和DriveSim模拟器,为评估MLLM在动态驾驶环境中的性能提供基准和工具。

📝 摘要(中文)

本文对多模态大型语言模型(MLLM)在自动驾驶领域的应用进行了冷静的审视,挑战了关于它们解释动态驾驶场景能力的常见假设。尽管GPT-4o等模型取得了进展,但它们在复杂驾驶环境中的性能在很大程度上仍未被探索。我们的实验研究使用车载摄像头视角评估了各种MLLM作为世界模型的能力,结果表明,虽然这些模型擅长解释单个图像,但它们难以跨帧合成连贯的叙述,导致在理解(i)自车动力学,(ii)与其他道路参与者的互动,(iii)轨迹规划,以及(iv)开放场景推理方面存在相当大的不准确性。我们引入了Eval-LLM-Drive数据集和DriveSim模拟器来加强我们的评估,突出了当前MLLM能力的差距,以及在动态真实世界环境中改进模型的需求。

🔬 方法详解

问题定义:论文旨在评估多模态大型语言模型(MLLMs)在自动驾驶场景中作为世界模型的能力。现有方法,即直接将MLLMs应用于自动驾驶,未能充分考虑动态环境下的时间一致性问题,导致模型难以准确理解车辆动力学、与其他交通参与者的交互、轨迹规划以及开放场景推理。这些问题源于MLLMs在处理连续帧之间的关系时存在的局限性。

核心思路:论文的核心思路是通过实验评估MLLMs在理解动态驾驶场景中的能力,并揭示其在时间一致性方面的不足。通过分析MLLMs在不同任务上的表现,例如车辆动力学理解、交通参与者交互预测、轨迹规划和开放场景推理,来量化其作为世界模型的有效性。这种评估方法旨在识别MLLMs在自动驾驶应用中的差距,并为未来的研究方向提供指导。

技术框架:论文的技术框架主要包括三个部分:数据采集、模型评估和性能分析。首先,使用车载摄像头采集真实驾驶场景的图像序列,并构建Eval-LLM-Drive数据集。其次,选择多种MLLMs(如GPT-4o)作为评估对象,并设计一系列任务来测试它们在自动驾驶场景中的理解能力。这些任务包括车辆动力学理解、交通参与者交互预测、轨迹规划和开放场景推理。最后,分析MLLMs在这些任务上的表现,并量化其性能指标,例如准确率、召回率等。此外,还使用了DriveSim模拟器来生成更多的驾驶场景数据,以增强评估的全面性。

关键创新:论文的关键创新在于对MLLMs在自动驾驶领域作为世界模型的能力进行了全面的实验评估,并揭示了其在动态场景理解方面的局限性。具体来说,论文首次提出了Eval-LLM-Drive数据集,该数据集专门用于评估MLLMs在自动驾驶场景中的性能。此外,论文还设计了一系列任务来测试MLLMs在车辆动力学理解、交通参与者交互预测、轨迹规划和开放场景推理方面的能力,从而全面评估了其作为世界模型的有效性。

关键设计:Eval-LLM-Drive数据集包含真实驾驶场景的图像序列,并标注了车辆动力学、交通参与者位置、轨迹信息等。DriveSim模拟器用于生成更多的驾驶场景数据,以增强评估的全面性。评估任务包括:(1) 车辆动力学理解:模型需要根据图像序列预测车辆的速度、加速度等;(2) 交通参与者交互预测:模型需要预测其他车辆的行驶意图和轨迹;(3) 轨迹规划:模型需要根据当前场景规划车辆的行驶轨迹;(4) 开放场景推理:模型需要理解场景中的复杂关系,例如交通规则、行人行为等。性能指标包括准确率、召回率、F1-score等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的MLLM在理解单个图像方面表现良好,但在跨帧合成连贯叙述方面存在显著不足,导致在车辆动力学理解、交通参与者交互预测、轨迹规划和开放场景推理等任务中表现不佳。具体性能数据未在摘要中给出,但强调了MLLM在动态场景理解方面的明显差距。

🎯 应用场景

该研究成果可应用于自动驾驶系统的感知模块,帮助开发者更清晰地了解现有MLLM的局限性,并指导未来模型的改进方向。通过提升MLLM在动态驾驶场景中的理解能力,可以提高自动驾驶系统的安全性和可靠性,最终实现更高级别的自动驾驶。

📄 摘要(原文)

We provide a sober look at the application of Multimodal Large Language Models (MLLMs) in autonomous driving, challenging common assumptions about their ability to interpret dynamic driving scenarios. Despite advances in models like GPT-4o, their performance in complex driving environments remains largely unexplored. Our experimental study assesses various MLLMs as world models using in-car camera perspectives and reveals that while these models excel at interpreting individual images, they struggle to synthesize coherent narratives across frames, leading to considerable inaccuracies in understanding (i) ego vehicle dynamics, (ii) interactions with other road actors, (iii) trajectory planning, and (iv) open-set scene reasoning. We introduce the Eval-LLM-Drive dataset and DriveSim simulator to enhance our evaluation, highlighting gaps in current MLLM capabilities and the need for improved models in dynamic real-world environments.