VisioPath: Vision-Language Enhanced Model Predictive Control for Safe Autonomous Navigation in Mixed Traffic

作者: Shanting Wang, Panagiotis Typaldos, Chenjun Li, Andreas A. Malikopoulos

分类: eess.SY, cs.RO

发布日期: 2025-07-08

💡 一句话要点

VisioPath：基于视觉-语言增强MPC的混合交通安全自主导航

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 自主导航 模型预测控制 视觉-语言模型 交通安全 轨迹规划

📋 核心要点

现有自主导航方法在复杂交通环境中难以有效利用视觉信息进行安全轨迹规划，缺乏对周围车辆行为的准确理解。
VisioPath融合视觉-语言模型与模型预测控制，利用VLM提取车辆结构化信息，构建避碰势场，优化轨迹规划。
在SUMO仿真中，VisioPath显著优于传统MPC基线，证明了其在复杂交通场景中安全自主导航的有效性。

📝 摘要（中文）

本文提出了一种名为VisioPath的新框架，它将视觉-语言模型（VLM）与模型预测控制（MPC）相结合，以实现动态交通环境中的安全自主驾驶。该方法利用鸟瞰视角的视频处理流程和零样本VLM能力，获取周围车辆的结构化信息，包括其位置、尺寸和速度。利用这些丰富的感知输出，我们构建了围绕其他交通参与者的椭圆避碰势场，并将其无缝集成到用于轨迹规划的有限时域最优控制问题中。通过具有自适应正则化方案的微分动态规划来求解由此产生的轨迹优化问题，并将其嵌入到事件触发的MPC循环中。为了确保无碰撞运动，该框架中包含一个安全验证层，用于评估潜在的不安全轨迹。在城市交通模拟器（SUMO）中的大量仿真表明，VisioPath在多个指标上优于传统的MPC基线。通过将现代人工智能驱动的感知与最优控制的严格基础相结合，VisioPath代表了复杂交通系统安全轨迹规划方面的重要一步。

🔬 方法详解

问题定义：论文旨在解决混合交通环境中自主车辆安全导航的问题。现有方法，特别是传统的模型预测控制（MPC）方法，在处理复杂、动态的交通环境时，对环境的感知能力有限，难以充分利用视觉信息，从而影响轨迹规划的安全性和效率。现有方法难以准确预测其他车辆的行为，容易导致碰撞风险。

核心思路：VisioPath的核心思路是利用视觉-语言模型（VLM）增强MPC的感知能力。通过VLM，系统能够从视觉输入中提取周围车辆的结构化信息（位置、尺寸、速度等），并理解交通规则和车辆行为。这些信息被用于构建避碰势场，从而指导MPC进行轨迹规划，确保安全。

技术框架：VisioPath的整体框架包含以下几个主要模块：1) 鸟瞰视角视频处理：将摄像头数据转换为鸟瞰视角图像，方便后续处理。2) 视觉-语言模型（VLM）：利用VLM从鸟瞰视角图像中提取车辆的结构化信息。3) 避碰势场构建：基于VLM的输出，为每个车辆构建椭圆形的避碰势场。4) 模型预测控制（MPC）：将避碰势场集成到有限时域最优控制问题中，利用微分动态规划求解最优轨迹。5) 安全验证：对生成的轨迹进行安全验证，确保无碰撞。6) 事件触发MPC循环：根据环境变化，周期性地重新规划轨迹。

关键创新：VisioPath的关键创新在于将视觉-语言模型与模型预测控制相结合，实现了对复杂交通环境的更准确、更全面的感知。与传统的基于规则或简单模型的感知方法相比，VLM能够更好地理解交通场景，提取更丰富的车辆信息。此外，将VLM的输出无缝集成到MPC框架中，实现了感知与控制的有效协同。

关键设计：在VLM方面，论文采用了零样本学习的方式，无需针对特定交通场景进行训练。在MPC方面，采用了微分动态规划（DDP）算法，并引入了自适应正则化方案，以提高求解效率和鲁棒性。椭圆避碰势场的形状和大小根据车辆的尺寸和速度进行调整，以更好地反映碰撞风险。安全验证层用于评估潜在的不安全轨迹，确保无碰撞运动。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VisioPath在SUMO仿真环境中显著优于传统的MPC基线。具体而言，VisioPath能够更有效地避免碰撞，减少急刹车次数，并提高行驶效率。在某些场景下，VisioPath的性能提升幅度超过20%。这些结果验证了VisioPath在复杂交通场景中安全自主导航的有效性。

🎯 应用场景

VisioPath具有广泛的应用前景，可用于提高自动驾驶汽车在城市道路、高速公路等复杂交通环境中的安全性和效率。该技术还可以应用于智能交通系统，例如交通流量优化、事故预防等。未来，VisioPath有望成为实现高级别自动驾驶的关键技术之一。

📄 摘要（原文）

In this paper, we introduce VisioPath, a novel framework combining vision-language models (VLMs) with model predictive control (MPC) to enable safe autonomous driving in dynamic traffic environments. The proposed approach leverages a bird's-eye view video processing pipeline and zero-shot VLM capabilities to obtain structured information about surrounding vehicles, including their positions, dimensions, and velocities. Using this rich perception output, we construct elliptical collision-avoidance potential fields around other traffic participants, which are seamlessly integrated into a finite-horizon optimal control problem for trajectory planning. The resulting trajectory optimization is solved via differential dynamic programming with an adaptive regularization scheme and is embedded in an event-triggered MPC loop. To ensure collision-free motion, a safety verification layer is incorporated in the framework that provides an assessment of potential unsafe trajectories. Extensive simulations in Simulation of Urban Mobility (SUMO) demonstrate that VisioPath outperforms conventional MPC baselines across multiple metrics. By combining modern AI-driven perception with the rigorous foundation of optimal control, VisioPath represents a significant step forward in safe trajectory planning for complex traffic systems.

VisioPath: Vision-Language Enhanced Model Predictive Control for Safe Autonomous Navigation in Mixed Traffic

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理