MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning

作者: Chengfei Wu, Ronald Seoh, Bingxuan Li, Liqiang Zhang, Fengrong Han, Dan Goldwasser

分类: cs.CV

发布日期: 2025-07-09

💡 一句话要点

MagiC：提出一个综合基准测试，用于评估具身视觉推理中的多模态认知能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身视觉推理 多模态认知 视觉问答 基准测试 模型评估

📋 核心要点

现有视觉语言模型在视觉推理方面表现出色，但缺乏对模型是否真正理解视觉信息的深入评估。
MagiC基准通过评估答案准确性、推理质量和视觉证据对齐，全面评估模型的具身多模态认知能力。
实验结果揭示了现有模型在具身视觉推理方面的局限性，并为未来的研究方向提供了指导。

📝 摘要（中文）

大型视觉语言模型在视觉问答和多模态推理方面取得了显著进展。然而，这些模型是否真正执行了具身视觉推理，还是仅仅依赖于表面模式和数据集偏差，仍然不清楚。本文提出了MagiC，一个综合基准测试，旨在评估具身多模态认知，不仅评估答案的准确性，还评估逐步推理的质量及其与相关视觉证据的对齐。该基准包括约5500个来自强大模型输出的弱监督QA示例和900个人工策划的示例，具有细粒度的注释，包括答案、理由和边界框 grounding。我们评估了15个参数范围从7B到70B的视觉语言模型，涵盖四个维度：最终答案的正确性、推理的有效性、grounding的保真度和自我纠正能力。MagiC还包括诊断设置，以探测模型在对抗性视觉线索下的鲁棒性，并评估其内省式错误纠正能力。我们引入了新的指标，如MagiScore和StepSense，并提供了全面的分析，揭示了当前具身视觉推理方法中的关键局限性和机会。

🔬 方法详解

问题定义：现有视觉语言模型在视觉问答等任务上取得了进展，但它们是否真正理解视觉信息并进行推理，还是仅仅依赖于数据集的偏差和表面模式，这是一个关键问题。现有的评估方法往往只关注答案的准确性，而忽略了推理过程的质量和与视觉证据的对齐，因此无法全面评估模型的具身视觉推理能力。

核心思路：MagiC基准的核心思路是通过构建一个包含细粒度标注的综合数据集，并设计一系列评估指标，来全面评估模型的具身多模态认知能力。该基准不仅关注答案的准确性，还关注推理过程的有效性、与视觉证据的对齐程度以及模型的自我纠正能力。

技术框架：MagiC基准主要包含以下几个部分：1) 数据集构建：包括弱监督数据生成和人工标注数据，其中人工标注数据包含答案、理由和边界框 grounding。2) 评估指标：包括MagiScore和StepSense等新指标，用于评估推理的有效性和grounding的保真度。3) 诊断设置：包括对抗性视觉线索和内省式错误纠正评估，用于探测模型的鲁棒性和自我纠正能力。4) 模型评估：对多个视觉语言模型进行评估，并分析其在不同维度上的表现。

关键创新：MagiC基准的关键创新在于其综合性和细粒度。它不仅关注答案的准确性，还关注推理过程的质量和与视觉证据的对齐，从而更全面地评估模型的具身视觉推理能力。此外，MagiC还引入了新的评估指标和诊断设置，为模型的评估提供了更丰富的手段。

关键设计：MagiC数据集包含约5500个弱监督QA示例和900个人工策划的示例。弱监督数据通过强大的模型生成，人工标注数据则由人工进行细粒度标注，包括答案、理由和边界框 grounding。MagiScore指标综合考虑了答案的准确性、推理的有效性和grounding的保真度。StepSense指标则用于评估推理步骤的合理性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有视觉语言模型在MagiC基准上表现出一定的局限性，尤其是在推理的有效性和grounding的保真度方面。例如，某些模型在对抗性视觉线索下表现出明显的性能下降，表明其对视觉信息的理解不够鲁棒。此外，模型的自我纠正能力也相对较弱，表明其缺乏对自身错误的有效识别和纠正机制。

🎯 应用场景

该研究成果可应用于提升视觉语言模型在机器人导航、智能助手、自动驾驶等领域的性能。通过更准确地理解视觉信息并进行推理，模型可以更好地与环境交互，完成更复杂的任务。此外，该基准测试可以促进视觉语言模型的可解释性和可靠性研究，为开发更值得信赖的人工智能系统奠定基础。

📄 摘要（原文）

Recent advances in large vision-language models have led to impressive performance in visual question answering and multimodal reasoning. However, it remains unclear whether these models genuinely perform grounded visual reasoning or rely on superficial patterns and dataset biases. In this work, we introduce MagiC, a comprehensive benchmark designed to evaluate grounded multimodal cognition, assessing not only answer accuracy but also the quality of step-by-step reasoning and its alignment with relevant visual evidence. Our benchmark includes approximately 5,500 weakly supervised QA examples generated from strong model outputs and 900 human-curated examples with fine-grained annotations, including answers, rationales, and bounding box groundings. We evaluate 15 vision-language models ranging from 7B to 70B parameters across four dimensions: final answer correctness, reasoning validity, grounding fidelity, and self-correction ability. MagiC further includes diagnostic settings to probe model robustness under adversarial visual cues and assess their capacity for introspective error correction. We introduce new metrics such as MagiScore and StepSense, and provide comprehensive analyses that reveal key limitations and opportunities in current approaches to grounded visual reasoning.

MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理