VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

📄 arXiv: 2504.15279v1 📥 PDF

作者: Weiye Xu, Jiahao Wang, Weiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang, Lewei Lu, Houqiang Li, Xiaohua Wang, Xizhou Zhu, Wenhai Wang, Jifeng Dai, Jinguo Zhu

分类: cs.CV

发布日期: 2025-04-21

备注: Code, data, and baselines are available at https://visulogic-benchmark.github.io/VisuLogic


💡 一句话要点

VisuLogic:用于评估多模态大语言模型视觉推理能力的新基准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉推理 基准测试 视觉理解 人工智能

📋 核心要点

  1. 现有MLLM推理评估依赖文本描述,存在语言捷径,无法有效评估视觉中心推理能力。
  2. VisuLogic基准包含1000个问题,覆盖定量变化、空间关系等六大类视觉推理任务。
  3. 实验表明现有MLLM在VisuLogic上表现远低于人类水平,揭示了视觉推理能力的巨大差距。

📝 摘要(中文)

视觉推理是人类智能的核心组成部分,也是高级多模态模型的关键能力。然而,目前对多模态大语言模型(MLLM)的推理评估通常依赖于文本描述,允许基于语言的推理捷径,无法衡量真正的以视觉为中心的推理。为了解决这个问题,我们引入了VisuLogic:一个包含1000个经过人工验证的问题的基准,涵盖六个类别(例如,定量变化、空间关系、属性比较)。这些不同类型的问题可以被评估,以从多个角度评估MLLM的视觉推理能力。我们评估了该基准上领先的MLLM,并分析了它们的结果以识别常见的失败模式。大多数模型的分数低于30%的准确率——仅略高于25%的随机基线,远低于人类达到的51.4%——揭示了视觉推理方面的显著差距。此外,我们提供了一个补充训练数据集和一个强化学习基线,以支持进一步的进展。

🔬 方法详解

问题定义:现有对多模态大语言模型(MLLMs)的视觉推理能力评估,过度依赖文本描述,模型可以通过语言捷径来解决问题,而无需真正理解图像内容。这导致评估结果无法真实反映模型的视觉推理能力,阻碍了相关研究的进展。

核心思路:VisuLogic的核心思路是构建一个高质量、多样化的视觉推理基准,该基准中的问题设计避免了对文本描述的过度依赖,迫使模型真正理解图像内容并进行视觉推理才能解决问题。通过对模型在VisuLogic上的表现进行评估,可以更准确地衡量其视觉推理能力。

技术框架:VisuLogic基准包含1000个问题,分为六个类别:定量变化、空间关系、属性比较、计数、逻辑推理和其他。每个问题都包含一张或多张图像以及一个问题,模型需要根据图像内容回答问题。为了保证基准的质量,所有问题都经过人工验证。此外,作者还提供了一个补充训练数据集和一个强化学习基线,以方便研究人员进行模型训练和性能比较。

关键创新:VisuLogic的关键创新在于其问题设计避免了对文本描述的过度依赖,迫使模型进行真正的视觉推理。此外,VisuLogic涵盖了多种视觉推理任务,可以从多个角度评估模型的视觉推理能力。人工验证保证了基准的质量,补充训练数据集和强化学习基线则方便了研究人员进行模型训练和性能比较。

关键设计:VisuLogic的六个类别问题设计各有侧重,例如,定量变化类问题考察模型对图像中物体数量变化的理解能力,空间关系类问题考察模型对物体之间空间关系的理解能力,属性比较类问题考察模型对物体属性的比较能力。问题的答案形式包括选择题和开放式问题。补充训练数据集包含与VisuLogic类似的问题,可以用于训练模型。强化学习基线则提供了一个基于强化学习的视觉推理模型,可以作为性能比较的基线。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前领先的MLLM在VisuLogic基准上的准确率普遍低于30%,仅略高于随机猜测的25%,远低于人类的51.4%。这表明现有模型在视觉推理方面存在显著差距,VisuLogic能够有效区分不同模型的视觉推理能力,并为未来的研究提供有价值的参考。

🎯 应用场景

VisuLogic基准的提出,能够促进多模态大语言模型在视觉推理方面的研究进展。该基准可用于评估和比较不同模型的视觉推理能力,帮助研究人员发现模型的不足之处,并设计更有效的模型。该研究的潜在应用领域包括智能助手、自动驾驶、图像搜索等,能够提升这些应用在复杂场景下的理解和决策能力。

📄 摘要(原文)

Visual reasoning is a core component of human intelligence and a critical capability for advanced multimodal models. Yet current reasoning evaluations of multimodal large language models (MLLMs) often rely on text descriptions and allow language-based reasoning shortcuts, failing to measure genuine vision-centric reasoning. To address this, we introduce VisuLogic: a benchmark of 1,000 human-verified problems across six categories (e.g., quantitative shifts, spatial relations, attribute comparisons). These various types of questions can be evaluated to assess the visual reasoning capabilities of MLLMs from multiple perspectives. We evaluate leading MLLMs on this benchmark and analyze their results to identify common failure modes. Most models score below 30% accuracy-only slightly above the 25% random baseline and far below the 51.4% achieved by humans-revealing significant gaps in visual reasoning. Furthermore, we provide a supplementary training dataset and a reinforcement-learning baseline to support further progress.