M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering

作者: Jiatong Ma, Longteng Guo, Yuchen Liu, Zijia Zhao, Dongze Hao, Xuanxu Lin, Jing Liu

分类: cs.CV, cs.AI

发布日期: 2026-04-28

🔗 代码/项目: GITHUB

💡 一句话要点

提出M$^3$-VQA基准，用于评估多模态大语言模型在细粒度多实体多跳推理上的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 多模态学习 多跳推理 知识库 大语言模型

📋 核心要点

现有VQA数据集在细粒度实体理解和复杂多跳推理方面存在不足，难以全面评估MLLM的推理能力。
M$^3$-VQA通过引入多实体问题和多文档推理，并提供可追溯的证据和多模态知识库，来解决上述问题。
实验表明，MLLM在没有外部知识的情况下表现较差，但通过提供精确证据和推理感知的检索方法，性能可以显著提升。

📝 摘要（中文）

本文提出了M$^3$-VQA，一个新的基于知识的视觉问答(VQA)基准，旨在提升多模态大语言模型(MLLMs)在细粒度多模态实体理解和复杂多跳推理方面的评估能力。与现有VQA数据集侧重于粗粒度类别和对单个实体的简单推理不同，M$^3$-VQA引入了多样化的多实体问题，这些问题涉及来自视觉和文本来源的多个不同实体。它要求模型在多个文档上执行顺序和并行的多跳推理，并由可追溯的详细证据和精心策划的多模态知识库提供支持。我们在三种设置下评估了16个领先的MLLM：无外部知识、使用黄金证据和使用检索增强输入。结果表明，MLLM在知识获取和推理方面面临重大挑战。模型在没有外部信息的情况下表现不佳，但在提供精确证据时表现显著提高。此外，推理感知的Agent检索优于启发式方法，突出了结构化推理对于复杂多模态理解的重要性。M$^3$-VQA为推进MLLM的多模态推理能力提出了更具挑战性的评估。

🔬 方法详解

问题定义：论文旨在解决现有视觉问答（VQA）基准在评估多模态大语言模型（MLLM）时，缺乏对细粒度多实体理解和复杂多跳推理能力有效评估的问题。现有方法主要关注粗粒度的类别和对单个实体的简单推理，无法充分测试MLLM在处理复杂场景和知识推理方面的能力。

核心思路：论文的核心思路是构建一个更具挑战性的VQA基准，即M$^3$-VQA，该基准包含多样化的多实体问题，这些问题需要模型从视觉和文本来源中提取多个不同的实体，并进行顺序和并行的多跳推理。通过提供可追溯的详细证据和多模态知识库，促进模型进行更深入的知识获取和推理。

技术框架：M$^3$-VQA数据集的构建涉及多个阶段，包括问题生成、实体标注、证据收集和知识库构建。问题生成阶段旨在创建需要多实体和多跳推理的问题。实体标注阶段负责识别问题和图像中涉及的实体。证据收集阶段旨在为每个问题提供可追溯的证据，支持模型的推理过程。知识库构建阶段旨在创建一个多模态知识库，为模型提供必要的背景知识。评估过程包括在三种设置下测试MLLM：无外部知识、使用黄金证据和使用检索增强输入。

关键创新：M$^3$-VQA的关键创新在于其对多实体、多跳推理的关注，以及提供可追溯证据和多模态知识库的设计。与现有VQA数据集相比，M$^3$-VQA更侧重于评估MLLM在复杂场景下的知识获取和推理能力。此外，论文还提出了推理感知的Agent检索方法，用于从外部知识库中检索相关信息，进一步提升模型的推理性能。

关键设计：M$^3$-VQA数据集包含多种类型的问题，涵盖不同的推理模式，例如顺序推理和并行推理。证据的质量和相关性对模型的性能至关重要，因此论文采用了严格的证据筛选和标注流程。知识库的构建采用了多模态融合技术，将视觉和文本信息整合在一起，为模型提供更全面的知识支持。在实验中，论文对比了多种MLLM在不同设置下的性能，并分析了不同因素对模型性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有MLLM在M$^3$-VQA基准上表现不佳，尤其是在没有外部知识的情况下。当提供黄金证据时，模型性能显著提升，表明知识获取是关键瓶颈。推理感知的Agent检索方法优于启发式方法，验证了结构化推理对于复杂多模态理解的重要性。例如，在提供黄金证据的情况下，模型的准确率提升了XX%。

🎯 应用场景

M$^3$-VQA基准的提出，能够促进多模态大语言模型在视觉问答、智能搜索、机器人导航等领域的应用。通过提升模型对细粒度实体和复杂推理的理解能力，可以实现更智能、更可靠的人机交互系统，并为相关研究提供更有效的评估工具。

📄 摘要（原文）

We present M$^3$-VQA, a novel knowledge-based Visual Question Answering (VQA) benchmark, to enhance the evaluation of multimodal large language models (MLLMs) in fine-grained multimodal entity understanding and complex multi-hop reasoning. Unlike existing VQA datasets that focus on coarse-grained categories and simple reasoning over single entities, M$^3$-VQA introduces diverse multi-entity questions involving multiple distinct entities from both visual and textual sources. It requires models to perform both sequential and parallel multi-hop reasoning across multiple documents, supported by traceable, detailed evidence and a curated multimodal knowledge base. We evaluate 16 leading MLLMs under three settings: without external knowledge, with gold evidence, and with retrieval-augmented input. The poor results reveal significant challenges for MLLMs in knowledge acquisition and reasoning. Models perform poorly without external information but improve markedly when provided with precise evidence. Furthermore, reasoning-aware agentic retrieval surpasses heuristic methods, highlighting the importance of structured reasoning for complex multimodal understanding. M$^3$-VQA presents a more challenging evaluation for advancing the multimodal reasoning capabilities of MLLMs. Our code and dataset are available at https://github.com/CASIA-IVA-Lab/M3VQA.

M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理