ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

📄 arXiv: 2502.09696v2 📥 PDF

作者: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, David I. Atkinson, Aaditya Baranwal, Alexandru Coca, Mikah Dang, Sebastian Dziadzio, Jakob D. Kunz, Kaiqu Liang, Alexander Lo, Brian Pulfer, Steven Walton, Charig Yang, Kai Han, Samuel Albanie

分类: cs.CV

发布日期: 2025-02-13 (更新: 2025-03-06)

备注: 20 pages, 13 figures


💡 一句话要点

ZeroBench:为当代大型多模态模型设计的、不可能完成的视觉推理基准测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型多模态模型 视觉推理 基准测试 空间认知 视觉理解

📋 核心要点

  1. 现有视觉基准测试无法有效评估大型多模态模型(LMMs)的真实视觉推理能力,模型在这些基准上表现虚高。
  2. ZeroBench通过引入一系列精心设计的、对现有LMMs而言不可能完成的视觉推理任务,来挑战模型的极限。
  3. 实验结果表明,包括20个前沿LMMs在内,所有模型在ZeroBench上的得分均为0.0%,揭示了LMMs在视觉理解方面的不足。

📝 摘要(中文)

大型多模态模型(LMMs)在图像理解方面存在重大缺陷,在某些方面,其空间认知能力甚至不如幼儿或动物。尽管如此,它们在许多流行的视觉基准测试中都获得了高分,并且随着模型进步的不断涌现,改进空间迅速缩小。为了解决这个问题,迫切需要能够长时间保持相关性的困难基准测试。我们将这个想法推向极致,推出了ZeroBench——一个轻量级的视觉推理基准测试,对于当代前沿LMMs来说,它完全是不可能完成的。我们的基准测试包含100个手动策划的问题和334个难度较低的子问题。我们评估了20个LMMs在ZeroBench上的表现,所有模型的得分均为0.0%,并严格分析了错误。为了鼓励视觉理解方面的进步,我们公开发布ZeroBench。

🔬 方法详解

问题定义:现有的大型多模态模型(LMMs)在流行的视觉基准测试中表现良好,但这些基准测试未能充分反映模型在复杂视觉推理方面的真实能力。模型在空间认知等方面甚至不如儿童或动物,现有基准测试无法有效区分模型的优劣,亟需更具挑战性的评估方法。

核心思路:ZeroBench的核心思路是创建一个对于当前最先进的LMMs来说“不可能完成”的视觉推理基准。通过精心设计一系列需要高度抽象和推理能力的视觉任务,迫使模型暴露其在视觉理解方面的根本缺陷。这种“不可能”的特性保证了基准测试在一段时间内的有效性,避免了模型通过简单地过拟合基准而获得虚高分数。

技术框架:ZeroBench包含100个手动策划的问题和334个难度较低的子问题。这些问题涵盖了多种视觉推理类型,旨在测试模型在空间关系、物理常识、因果推理等方面的能力。评估过程简单直接,即模型对每个问题进行回答,并根据回答的正确性进行评分。重点在于问题本身的设计,而非复杂的评估流程。

关键创新:ZeroBench最关键的创新在于其“不可能完成”的特性。与以往的基准测试不同,ZeroBench并非旨在区分不同模型的性能差异,而是旨在揭示所有模型在视觉理解方面的共同缺陷。这种设计理念使得ZeroBench能够长时间保持其挑战性,并推动研究人员开发更强大的视觉推理模型。

关键设计:ZeroBench的关键设计在于问题的选择和设计。问题需要满足以下几个标准:1) 对于人类来说相对容易理解和回答;2) 对于当前的LMMs来说极具挑战性;3) 涵盖多种视觉推理类型;4) 避免歧义和误导。为了满足这些标准,研究人员进行了大量的手动策划和筛选,最终选择了100个最具代表性的问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ZeroBench评估了20个前沿LMMs,所有模型在该基准测试上的得分均为0.0%。这一结果表明,即使是最先进的LMMs在视觉推理方面仍然存在显著的不足。ZeroBench的发布将有助于推动研究人员更加关注LMMs在视觉理解方面的根本问题,并开发更具鲁棒性和泛化能力的模型。

🎯 应用场景

ZeroBench可用于评估和改进大型多模态模型在视觉推理方面的能力。通过揭示模型在视觉理解方面的缺陷,ZeroBench能够引导研究人员开发更强大的模型,从而推动计算机视觉、机器人、自动驾驶等领域的发展。此外,ZeroBench还可以作为教育工具,帮助人们更好地理解LMMs的局限性。

📄 摘要(原文)

Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.