VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

作者: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu

分类: cs.CV

发布日期: 2025-03-14

💡 一句话要点

提出VERIFY基准以评估多模态推理的视觉解释能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 视觉推理 基准评估 人工标注 模型评估 推理路径 视觉信息

📋 核心要点

现有基准主要集中在识别能力的评估，未能有效测量模型的视觉推理能力，导致对模型性能的片面理解。
本文提出的VERIFY基准专注于从视觉信息中进行推理，减少文本信息的干扰，以更准确地评估多模态模型的推理能力。
通过对领先的MLLMs进行全面评估，发现其在视觉推理方面存在显著局限，强调了对感知与推理的综合考量的重要性。

📝 摘要（中文）

视觉推理是人类认知的核心，帮助个体理解和抽象环境。尽管近期的多模态大型语言模型（MLLMs）在语言和视觉语言任务上表现出色，但现有基准主要评估识别能力，未能充分考量真实的视觉推理能力。为填补这一关键空白，本文提出VERIFY基准，旨在严格评估最先进MLLMs的视觉推理能力。VERIFY要求模型主要依赖视觉信息进行推理，提供最小的文本上下文，以减少对领域特定知识和语言偏见的依赖。每个问题都附有人工标注的推理路径，使其成为首个深入评估模型决策过程的基准。此外，本文提出的新指标超越了单纯的准确性，突显了当前模型推理模式中的关键不平衡。对领先MLLMs的全面基准测试揭示了显著的局限性，强调了在感知与推理之间实现平衡和整体性的方法的必要性。

🔬 方法详解

问题定义：本文旨在解决现有基准无法有效评估多模态大型语言模型（MLLMs）真实视觉推理能力的问题。现有方法主要关注识别能力，忽视了推理过程的深度分析。

核心思路：VERIFY基准设计为强制模型主要依赖视觉信息进行推理，提供最小的文本上下文，从而减少对领域知识和语言偏见的依赖。这种设计旨在更真实地反映模型的视觉推理能力。

技术框架：VERIFY基准包括多个模块，首先是问题生成模块，生成需要视觉推理的问题；其次是推理路径标注模块，由人工标注推理路径；最后是评估模块，使用新提出的指标对模型进行全面评估。

关键创新：VERIFY是首个提供深入评估模型决策过程的基准，结合人工标注的推理路径和新颖的评估指标，能够更全面地反映模型的推理能力和局限性。

关键设计：在设计中，采用了新的评估指标，不仅关注准确性，还考虑推理的完整性和一致性。此外，问题生成和推理路径的标注均经过严格的标准化，确保评估的可靠性和有效性。

🖼️ 关键图片

📊 实验亮点

在对领先MLLMs的评估中，VERIFY基准揭示了模型在视觉推理方面的显著局限性，尤其是在处理复杂视觉信息时的准确性不足。通过引入新指标，研究发现当前模型的推理模式存在明显的不平衡，强调了对推理能力的全面评估的重要性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动驾驶、医疗影像分析等，需要模型具备准确的视觉推理能力。通过提高模型的推理能力，能够在复杂场景中做出更准确的决策，提升用户体验和安全性。未来，该基准可能推动多模态模型的进一步研究和应用，促进更智能的系统发展。

📄 摘要（原文）

Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理