Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs
作者: Rohit Sinha, Aditya Kanade, Sai Srinivas Kancheti, Vineeth N Balasubramanian, Tanuja Ganu
分类: cs.CV, cs.AI
发布日期: 2026-04-17
💡 一句话要点
提出Mind's Eye基准测试,评估多模态LLM的视觉抽象、转换和组合能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉认知 基准测试 大型语言模型 视觉推理
📋 核心要点
- 现有视觉语言基准测试未能充分评估多模态LLM在视觉认知和空间推理方面的能力。
- 提出Mind's Eye基准,包含抽象、关系和转换三类任务,模拟人类认知过程,更全面评估MLLM。
- 实验表明,现有MLLM在视觉认知任务上的表现远低于人类水平,揭示了其在注意力、感知和抽象方面的不足。
📝 摘要(中文)
多模态大型语言模型(MLLM)在视觉语言基准测试中取得了显著进展,但它们在视觉认知和视觉空间推理方面的能力仍有待深入研究。我们提出了“Mind's Eye”,这是一个多项选择题基准,包含八项受经典人类智力测试启发的视觉认知任务,并按照新颖的“A-R-T”分类法组织:抽象(Abstraction)、关系(Relation)和转换(Transformation)。这些任务旨在探测诸如模式归纳、类比关系映射和心理转换等流体智力的核心过程。我们评估了一系列闭源和开源的MLLM,并将它们的性能与人类参与者进行了比较。人类的准确率达到80%,而表现最佳的MLLM仍低于50%。错误分析揭示了以下方面的不足:(i)视觉注意力分配,(ii)内部感知操作,以及(iii)对底层视觉概念的抽象能力较弱。我们的研究结果表明,与人类参与者相比,当前的MLLM表现出有限的视觉空间推理能力,突出了对更具认知基础的评估框架的需求。
🔬 方法详解
问题定义:现有视觉语言模型在视觉认知和空间推理能力方面存在不足,传统的基准测试难以全面评估这些能力。具体来说,模型在处理需要抽象、关系推理和空间转换的任务时表现不佳,无法达到人类水平。现有方法的痛点在于缺乏一个能够有效衡量模型在这些认知过程中的表现的基准。
核心思路:论文的核心思路是设计一个更具认知基础的评估框架,即Mind's Eye基准。该基准模仿人类智力测试,包含一系列需要视觉抽象、关系推理和空间转换的任务。通过评估模型在这些任务上的表现,可以更全面地了解其视觉认知能力。这样设计的目的是为了弥补现有基准测试的不足,并为未来的模型改进提供指导。
技术框架:Mind's Eye基准测试包含八个视觉认知任务,这些任务被组织在“A-R-T”分类法下:抽象(Abstraction)、关系(Relation)和转换(Transformation)。每个任务都以多项选择题的形式呈现。研究人员使用该基准测试评估了一系列闭源和开源的MLLM,并将它们的性能与人类参与者进行了比较。整个流程包括数据收集、任务设计、模型评估和错误分析。
关键创新:该论文的关键创新在于提出了一个更具认知基础的视觉认知能力评估基准,即Mind's Eye。与现有基准测试相比,Mind's Eye更侧重于评估模型的抽象、关系推理和空间转换能力,这些能力是人类智能的重要组成部分。此外,该基准测试还提供了一个详细的错误分析,可以帮助研究人员了解模型在哪些方面存在不足。
关键设计:Mind's Eye基准测试的任务设计灵感来源于经典的人类智力测试,例如Raven's Progressive Matrices。每个任务都经过精心设计,以确保其能够有效地评估模型的特定认知能力。例如,抽象任务旨在评估模型从视觉输入中提取抽象概念的能力,关系任务旨在评估模型识别视觉元素之间关系的能力,转换任务旨在评估模型在心理上操纵视觉对象的能力。具体参数设置和网络结构取决于被评估的MLLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,人类在Mind's Eye基准测试中达到80%的准确率,而表现最佳的MLLM仍低于50%。错误分析显示,MLLM在视觉注意力分配、内部感知操作和视觉概念抽象方面存在明显不足。这些结果突出了当前MLLM在视觉空间推理能力方面与人类的差距。
🎯 应用场景
该研究成果可应用于提升多模态LLM在机器人、自动驾驶、图像理解等领域的性能。通过更准确地评估和改进模型的视觉认知能力,可以使其在复杂环境中更好地理解和推理,从而实现更智能、更可靠的应用。未来,该基准测试可以促进开发更具认知能力的AI系统。
📄 摘要(原文)
Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.