V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

📄 arXiv: 2502.09980v3 📥 PDF

作者: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen

分类: cs.CV, cs.RO

发布日期: 2025-02-14 (更新: 2025-04-01)

备注: Our project website: https://eddyhkchiu.github.io/v2vllm.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出V2V-LLM以解决车辆间协作自动驾驶中的感知与规划问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 车辆间通信 协作感知 多模态大语言模型 自动驾驶 信息融合 安全性提升

📋 核心要点

  1. 现有的自动驾驶车辆依赖单一传感器进行环境感知,存在传感器故障或遮挡时的可靠性问题。
  2. 本文提出了一种多模态大语言模型(V2V-LLM),通过车辆间通信融合感知信息,提升协作规划能力。
  3. 实验结果显示,V2V-LLM在多种协作自动驾驶任务中表现优于其他融合方法,具有良好的应用前景。

📝 摘要(中文)

当前的自动驾驶车辆主要依赖单一传感器理解周围场景并规划未来轨迹,这在传感器故障或遮挡时可能不可靠。为了解决这一问题,提出了车辆间(V2V)通信的协作感知方法,但这些方法主要集中在感知任务上,如何提升整体协作规划性能仍未深入探讨。本文提出了一种新颖的多模态大语言模型(LLM)集成到协作自动驾驶中的问题设置,构建了车辆间问答(V2V-QA)数据集和基准,提出了基线方法V2V-LLM,利用LLM融合多辆连接自动驾驶车辆的感知信息并回答与驾驶相关的各种问题。实验结果表明,V2V-LLM在协作自动驾驶的多种任务中表现优异,超越了其他基线方法,开创了提升未来自动驾驶系统安全性的新研究方向。

🔬 方法详解

问题定义:本文旨在解决现有自动驾驶车辆在感知和规划中的局限性,尤其是在传感器故障或遮挡情况下的可靠性问题。现有的V2V协作感知方法多集中于感知任务,缺乏对整体协作规划性能的深入探讨。

核心思路:论文提出了一种将多模态大语言模型(LLM)集成到协作自动驾驶中的新方法,利用V2V通信实现信息的有效融合,从而提升车辆间的协作能力和规划性能。

技术框架:整体架构包括多个模块:首先,通过V2V通信收集多辆车的感知信息;其次,使用LLM对这些信息进行融合;最后,模型能够回答与驾驶相关的各种问题,如物体识别和路径规划。

关键创新:最重要的创新点在于将大语言模型应用于协作自动驾驶领域,提供了一种新的信息融合方式,与传统的感知任务聚焦方法形成鲜明对比。

关键设计:在模型设计中,采用了特定的参数设置和损失函数,以优化信息融合效果,并确保模型能够处理多种类型的驾驶相关问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,V2V-LLM在多个协作自动驾驶任务中表现优于其他基线方法,具体性能提升幅度达到XX%,展示了其在信息融合和规划能力上的优势。

🎯 应用场景

该研究的潜在应用领域包括未来的智能交通系统和自动驾驶车辆网络,通过提升车辆间的协作能力,可以显著提高行车安全性和效率。此外,研究成果可为自动驾驶技术的进一步发展提供理论基础和实践指导。

📄 摘要(原文)

Current autonomous driving vehicles rely mainly on their individual sensors to understand surrounding scenes and plan for future trajectories, which can be unreliable when the sensors are malfunctioning or occluded. To address this problem, cooperative perception methods via vehicle-to-vehicle (V2V) communication have been proposed, but they have tended to focus on perception tasks like detection or tracking. How those approaches contribute to overall cooperative planning performance is still under-explored. Inspired by recent progress using Large Language Models (LLMs) to build autonomous driving systems, we propose a novel problem setting that integrates a Multi-Modal LLM into cooperative autonomous driving, with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and benchmark. We also propose our baseline method Vehicle-to-Vehicle Multi-Modal Large Language Model (V2V-LLM), which uses an LLM to fuse perception information from multiple connected autonomous vehicles (CAVs) and answer various types of driving-related questions: grounding, notable object identification, and planning. Experimental results show that our proposed V2V-LLM can be a promising unified model architecture for performing various tasks in cooperative autonomous driving, and outperforms other baseline methods that use different fusion approaches. Our work also creates a new research direction that can improve the safety of future autonomous driving systems. The code and data will be released to the public to facilitate open-source research in this field. Our project website: https://eddyhkchiu.github.io/v2vllm.github.io/ .