VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving

📄 arXiv: 2408.04821v2 📥 PDF

作者: Keke Long, Haotian Shi, Jiaxi Liu, Xiaopeng Li

分类: cs.RO

发布日期: 2024-08-09 (更新: 2024-10-03)


💡 一句话要点

提出VLM-MPC,结合视觉语言模型与模型预测控制,提升自动驾驶决策的安全性和平滑性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言模型 模型预测控制 闭环控制 安全性 平滑性 环境理解

📋 核心要点

  1. 现有VLM在自动驾驶决策中缺乏安全保障,可能导致碰撞风险,且行驶平滑性有待提升。
  2. VLM-MPC结合VLM的推理能力和MPC的精确控制,利用VLM生成驾驶参数,MPC进行实时控制,形成闭环反馈。
  3. 实验表明,VLM-MPC在多种复杂环境中能有效维持安全距离,显著提升行驶平滑性,并验证了关键组件的贡献。

📝 摘要(中文)

本文提出了一种闭环自动驾驶控制器VLM-MPC,它结合了模型预测控制(MPC)与视觉语言模型(VLM),旨在评估基于模型的控制如何增强VLM的决策能力。VLM-MPC由两个异步组件构成:上层VLM基于前置摄像头图像、车辆自身状态、交通环境条件和参考记忆,生成下层控制所需的驾驶参数(如期望速度、期望车头时距);下层MPC使用这些参数实时控制车辆,同时考虑发动机滞后并将状态反馈给整个系统。基于nuScenes数据集的实验验证了VLM-MPC在各种环境(如夜晚、雨天和十字路口)中的有效性。结果表明,VLM-MPC始终将后方侵入时间(PET)维持在安全阈值以上,与一些VLM控制存在碰撞风险的场景形成对比。此外,VLM-MPC相比真实轨迹和VLM控制,提高了行驶的平滑性。通过比较不同环境下的行为,突出了VLM-MPC理解环境并进行合理推理的能力。消融实验验证了参考记忆和环境编码器这两个关键组件对响应稳定性的贡献。

🔬 方法详解

问题定义:论文旨在解决仅使用视觉语言模型(VLM)进行自动驾驶决策时存在的安全性和平滑性问题。现有的VLM虽然具备一定的推理能力,但在复杂交通环境中,其决策可能不够稳定,存在潜在的碰撞风险,并且车辆行驶的平滑性也难以保证。

核心思路:论文的核心思路是将VLM的感知和推理能力与模型预测控制(MPC)的精确控制能力相结合。VLM负责理解环境并生成驾驶参数,MPC则根据这些参数进行实时控制,并通过状态反馈形成闭环系统。这种结合既能利用VLM的智能,又能保证控制的稳定性和安全性。

技术框架:VLM-MPC系统由两个主要异步组件构成:1) 上层VLM:负责接收来自前置摄像头的图像、车辆自身状态、交通环境条件和参考记忆的信息,并生成下层MPC所需的驾驶参数,例如期望速度和期望车头时距。2) 下层MPC:根据VLM提供的驾驶参数,实时控制车辆的油门、刹车和转向,同时考虑发动机滞后等因素。MPC会将车辆的状态反馈给整个系统,形成闭环控制。

关键创新:该论文的关键创新在于将VLM与MPC进行深度融合,构建了一个闭环的自动驾驶控制系统。与传统的基于规则或纯数据驱动的自动驾驶方法相比,VLM-MPC能够利用VLM的推理能力来理解复杂的交通环境,并结合MPC的精确控制来保证行驶的安全性和平滑性。此外,参考记忆和环境编码器的引入进一步提升了系统的稳定性和鲁棒性。

关键设计:论文中涉及的关键设计包括:1) VLM的设计:选择合适的VLM架构,并针对自动驾驶任务进行微调,使其能够准确理解交通环境并生成合理的驾驶参数。2) MPC的设计:构建精确的车辆动力学模型,并设计合适的代价函数,以实现安全、平滑的行驶轨迹。3) 参考记忆的设计:维护一个包含历史驾驶经验的参考记忆,用于辅助VLM进行决策。4) 环境编码器的设计:将交通环境信息编码成向量表示,供VLM使用。

📊 实验亮点

实验结果表明,VLM-MPC在各种复杂环境中(如夜晚、雨天和十字路口)均表现出色。VLM-MPC能够始终将后方侵入时间(PET)维持在安全阈值以上,显著优于仅使用VLM的控制方法,后者在某些场景下存在碰撞风险。此外,VLM-MPC还显著提高了行驶的平滑性,相比真实轨迹和VLM控制,其轨迹更加平稳。消融实验验证了参考记忆和环境编码器对系统稳定性的重要贡献。

🎯 应用场景

VLM-MPC在自动驾驶领域具有广泛的应用前景,可用于提升自动驾驶系统的安全性、可靠性和舒适性。该方法尤其适用于复杂交通环境,例如城市道路、高速公路和恶劣天气条件。此外,VLM-MPC还可以应用于辅助驾驶系统,为驾驶员提供更智能、更安全的驾驶辅助功能。未来,该研究有望推动自动驾驶技术的进一步发展,加速自动驾驶汽车的商业化进程。

📄 摘要(原文)

Motivated by the emergent reasoning capabilities of Vision Language Models (VLMs) and their potential to improve the comprehensibility of autonomous driving systems, this paper introduces a closed-loop autonomous driving controller called VLM-MPC, which combines the Model Predictive Controller (MPC) with VLM to evaluate how model-based control could enhance VLM decision-making. The proposed VLM-MPC is structured into two asynchronous components: The upper layer VLM generates driving parameters (e.g., desired speed, desired headway) for lower-level control based on front camera images, ego vehicle state, traffic environment conditions, and reference memory; The lower-level MPC controls the vehicle in real-time using these parameters, considering engine lag and providing state feedback to the entire system. Experiments based on the nuScenes dataset validated the effectiveness of the proposed VLM-MPC across various environments (e.g., night, rain, and intersections). The results demonstrate that the VLM-MPC consistently maintains Post Encroachment Time (PET) above safe thresholds, in contrast to some scenarios where the VLM-based control posed collision risks. Additionally, the VLM-MPC enhances smoothness compared to the real-world trajectories and VLM-based control. By comparing behaviors under different environmental settings, we highlight the VLM-MPC's capability to understand the environment and make reasoned inferences. Moreover, we validate the contributions of two key components, the reference memory and the environment encoder, to the stability of responses through ablation tests.