V2X-QA: A Comprehensive Reasoning Dataset and Benchmark for Multimodal Large Language Models in Autonomous Driving Across Ego, Infrastructure, and Cooperative Views

作者: Junwei You, Pei Li, Zhuoyu Jiang, Weizhe Tang, Zilin Huang, Rui Gan, Jiaxi Liu, Yan Zhao, Sikai Chen, Bin Ran

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-04-06

💡 一句话要点

提出V2X-QA数据集与基准，评估多模态大模型在自动驾驶中跨视角推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 多模态大模型 车路协同 多视角推理 数据集 基准测试 视角解耦 协同感知

📋 核心要点

现有自动驾驶基准测试主要集中在车辆自身视角，缺乏对基础设施和协同驾驶场景的全面评估。
提出V2X-QA数据集，包含车辆侧、基础设施侧和协同视角的多项选择题，用于评估多模态大模型的推理能力。
实验表明，视角可访问性显著影响模型性能，协同推理仍具挑战，并提出V2X-MoE模型作为基线。

📝 摘要（中文）

多模态大型语言模型(MLLM)在自动驾驶领域展现出巨大潜力，但现有基准测试主要集中在自我中心视角，无法系统评估模型在以基础设施为中心和协同驾驶条件下的性能。本文提出了V2X-QA，一个真实世界的数据集和基准，用于评估MLLM在车辆侧、基础设施侧和协同视角下的性能。V2X-QA围绕一个视角解耦的评估协议构建，该协议支持在统一的多项选择问答(MCQA)框架内，对仅车辆、仅基础设施和协同驾驶条件下的受控比较。该基准被组织成一个包含感知、预测、推理和规划的十二项任务分类，并通过专家验证的MCQA注释构建，以实现对视角相关能力的细粒度诊断。对十个代表性的最先进的专有和开源模型进行的基准测试结果表明，视角可访问性显著影响性能，并且基础设施侧推理支持有意义的宏观交通理解。结果还表明，协同推理仍然具有挑战性，因为它需要跨视角对齐和证据整合，而不仅仅是额外的视觉输入。为了应对这些挑战，我们引入了V2X-MoE，一个与基准对齐的基线，具有显式的视角路由和特定于视角的LoRA专家。V2X-MoE的强大性能进一步表明，显式的视角专业化是互联自动驾驶中多视角推理的一个有希望的方向。总的来说，V2X-QA为研究互联自动驾驶中的多视角推理、可靠性和协同物理智能奠定了基础。数据集和V2X-MoE资源可在以下网址公开获取：this https URL。

🔬 方法详解

问题定义：现有自动驾驶数据集和基准测试主要关注车辆自身的感知和决策，缺乏对基础设施视角和多车协同场景的有效评估。这导致多模态大模型在处理复杂交通场景，特别是需要融合多源信息进行推理和规划时，性能受到限制。现有方法难以有效利用来自不同视角的互补信息，从而影响自动驾驶系统的安全性和效率。

核心思路：V2X-QA的核心思路是通过构建一个包含多种视角（车辆侧、基础设施侧、协同视角）的多项选择问答数据集，来系统性地评估多模态大模型在自动驾驶场景下的推理能力。通过解耦不同视角的输入，并设计相应的推理任务，可以更清晰地诊断模型在不同视角下的优势和不足。

技术框架：V2X-QA数据集包含十二项任务，涵盖感知、预测、推理和规划等自动驾驶的关键环节。数据集中的每个样本都包含来自不同视角的图像或视频，以及一个多项选择题，要求模型根据给定的信息进行推理并选择正确的答案。此外，论文还提出了V2X-MoE模型，该模型采用视角路由机制和视角特定的LoRA专家，以更好地利用来自不同视角的信息。

关键创新：V2X-QA的关键创新在于其视角解耦的评估协议和多视角协同推理任务的设计。通过将不同视角的输入分离，并设计相应的推理问题，可以更清晰地评估模型在不同视角下的性能。此外，V2X-MoE模型通过显式的视角路由和视角特定的LoRA专家，实现了对多视角信息的有效融合。

关键设计：V2X-MoE模型采用了MoE（Mixture of Experts）架构，其中每个专家都针对特定的视角进行训练。视角路由模块根据输入信息的视角，选择相应的专家进行处理。LoRA（Low-Rank Adaptation）技术用于在预训练模型的基础上，对特定视角的专家进行微调，以提高其在特定视角下的性能。损失函数的设计旨在鼓励模型学习到不同视角之间的关联，并能够有效地融合来自不同视角的信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，视角可访问性对模型性能有显著影响。在V2X-QA基准测试中，V2X-MoE模型表现出优于其他基线的性能，验证了视角专业化策略的有效性。V2X-MoE在协同推理任务上取得了显著提升，表明显式的视角路由和视角特定的LoRA专家能够有效融合多视角信息。

🎯 应用场景

V2X-QA数据集和基准测试为多模态大模型在自动驾驶领域的应用提供了重要的评估工具。该研究成果可用于开发更安全、更高效的自动驾驶系统，并促进车路协同技术的发展。未来，该数据集可以扩展到更多场景和任务，例如交通流量预测、事故预警等，从而推动智能交通系统的发展。

📄 摘要（原文）

Multimodal large language models (MLLMs) have shown strong potential for autonomous driving, yet existing benchmarks remain largely ego-centric and therefore cannot systematically assess model performance in infrastructure-centric and cooperative driving conditions. In this work, we introduce V2X-QA, a real-world dataset and benchmark for evaluating MLLMs across vehicle-side, infrastructure-side, and cooperative viewpoints. V2X-QA is built around a view-decoupled evaluation protocol that enables controlled comparison under vehicle-only, infrastructure-only, and cooperative driving conditions within a unified multiple-choice question answering (MCQA) framework. The benchmark is organized into a twelve-task taxonomy spanning perception, prediction, and reasoning and planning, and is constructed through expert-verified MCQA annotation to enable fine-grained diagnosis of viewpoint-dependent capabilities. Benchmark results across ten representative state-of-the-art proprietary and open-source models show that viewpoint accessibility substantially affects performance, and infrastructure-side reasoning supports meaningful macroscopic traffic understanding. Results also indicate that cooperative reasoning remains challenging since it requires cross-view alignment and evidence integration rather than simply additional visual input. To address these challenges, we introduce V2X-MoE, a benchmark-aligned baseline with explicit view routing and viewpoint-specific LoRA experts. The strong performance of V2X-MoE further suggests that explicit viewpoint specialization is a promising direction for multi-view reasoning in autonomous driving. Overall, V2X-QA provides a foundation for studying multi-perspective reasoning, reliability, and cooperative physical intelligence in connected autonomous driving. The dataset and V2X-MoE resources are publicly available at:this https URL.

V2X-QA: A Comprehensive Reasoning Dataset and Benchmark for Multimodal Large Language Models in Autonomous Driving Across Ego, Infrastructure, and Cooperative Views

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理