Pixels, Patterns, but No Poetry: To See The World like Humans

📄 arXiv: 2507.16863v1 📥 PDF

作者: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-07-21


💡 一句话要点

提出Turing Eye Test,评估多模态大语言模型在类人感知方面的能力差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉感知 类人感知 图灵眼测试 基准测试

📋 核心要点

  1. 现有MLLM研究侧重于推理能力,忽略了模型在感知能力上与人类的差距,导致模型在简单感知任务上表现不佳。
  2. 论文提出Turing Eye Test (TET)基准,包含多个合成图像感知任务,旨在评估MLLM在类人感知方面的能力。
  3. 实验表明,现有MLLM在TET基准上表现不佳,表明视觉塔的泛化能力存在瓶颈,需要进一步提升。

📝 摘要(中文)

在多模态大语言模型(MLLM)中实现类人感知和推理仍然是人工智能领域的核心挑战。虽然最近的研究主要集中在增强MLLM的推理能力上,但一个根本问题依然存在:多模态大语言模型真的能像人类一样感知世界吗?本文将重点从推理转移到感知。我们没有构建专门用于推理的基准,而是引入了图灵眼测试(TET),这是一个具有挑战性的、面向感知的基准,包含四个诊断任务,用于评估MLLM在人类凭直觉处理的合成图像上的性能。我们的研究结果表明,最先进的MLLM在我们的感知任务上表现出灾难性的失败,而这些任务对人类来说是微不足道的。上下文学习和在语言骨干上训练(对之前的基准有效)都未能提高我们任务的性能,而微调视觉塔能够实现快速适应,这表明我们的基准对视觉塔的泛化提出了挑战,而不是对语言骨干的知识和推理能力提出了挑战——这是当前MLLM和人类感知之间的关键差距。我们发布了TET任务的一个代表性子集,并将在未来的工作中引入更多样化的任务和方法来增强视觉泛化。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在感知能力上与人类的差距问题。现有MLLM虽然在推理任务上取得了显著进展,但在一些对人类来说非常直观的感知任务上却表现出灾难性的失败。这表明现有方法在视觉感知方面存在严重的局限性,无法真正理解图像的语义信息。

核心思路:论文的核心思路是通过构建一个专门用于评估感知能力的基准测试集(TET),来诊断现有MLLM在感知方面的不足。TET包含一系列精心设计的合成图像任务,这些任务对人类来说非常简单,但对MLLM来说却具有挑战性。通过分析MLLM在TET上的表现,可以深入了解其视觉感知能力的瓶颈所在。

技术框架:论文提出的Turing Eye Test (TET)基准包含四个诊断任务,这些任务基于合成图像,旨在评估MLLM的感知能力。这些任务的设计灵感来源于人类的直觉感知,例如识别图像中的简单模式、理解物体的空间关系等。论文使用这些任务来评估MLLM的视觉塔的泛化能力。

关键创新:论文的关键创新在于提出了一个面向感知的基准测试集TET,该基准能够有效地评估MLLM在类人感知方面的能力。与以往侧重于推理能力的基准测试集不同,TET更加关注模型对图像的底层感知能力,从而能够更准确地诊断模型在视觉感知方面的不足。

关键设计:TET基准中的任务设计考虑了人类感知的特点,例如对简单模式的识别、对空间关系的理解等。这些任务的难度经过精心调整,确保对人类来说非常简单,但对MLLM来说却具有挑战性。论文还研究了不同的训练策略(如上下文学习、微调视觉塔)对MLLM在TET上的性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的最先进MLLM在TET基准上表现出灾难性的失败,即使是上下文学习也无法有效提升性能。然而,通过微调视觉塔,模型可以在TET上取得显著的性能提升,这表明视觉塔的泛化能力是当前MLLM感知能力的关键瓶颈。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型在机器人、自动驾驶、图像搜索等领域的感知能力。通过更准确地理解图像内容,模型可以更好地与环境交互,提高任务完成的效率和准确性。未来的研究可以基于TET基准,开发更有效的视觉感知模型,缩小人工智能与人类感知之间的差距。

📄 摘要(原文)

Achieving human-like perception and reasoning in Multimodal Large Language Models (MLLMs) remains a central challenge in artificial intelligence. While recent research has primarily focused on enhancing reasoning capabilities in MLLMs, a fundamental question persists: Can Multimodal Large Language Models truly perceive the world as humans do? This paper shifts focus from reasoning to perception. Rather than constructing benchmarks specifically for reasoning, we introduce the Turing Eye Test (TET), a challenging perception-oriented benchmark comprising four diagnostic tasks that evaluate MLLMs' performance on synthetic images that humans process intuitively. Our findings reveal that state-of-the-art MLLMs exhibit catastrophic failures on our perceptual tasks trivial for humans. Both in-context learning and training on language backbone-effective for previous benchmarks-fail to improve performance on our tasks, while fine-tuning the vision tower enables rapid adaptation, suggesting that our benchmark poses challenges for vision tower generalization rather than for the knowledge and reasoning capabilities of the language backbone-a key gap between current MLLMs and human perception. We release a representative subset of TET tasks in this version, and will introduce more diverse tasks and methods to enhance visual generalization in future work.