SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs

📄 arXiv: 2509.25390v1 📥 PDF

作者: Yuyou Zhang, Radu Corcodel, Chiori Hori, Anoop Cherian, Ding Zhao

分类: cs.CV, cs.AI

发布日期: 2025-09-29

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SpinBench以评估视觉语言模型中的空间推理能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 空间推理 视觉语言模型 视角转换 认知基准 多模态评估 任务分类 模型评估 人工智能

📋 核心要点

  1. 现有的视觉语言模型在空间推理方面存在系统性弱点,尤其是在视角转换和物体关系理解上。
  2. SpinBench通过引入细致的诊断类别,系统评估模型在不同视角下的空间推理能力,逐步增加任务难度。
  3. 实验结果显示,37个VLM在空间推理任务上表现不佳,尤其是在旋转理解和自我中心偏见方面,且与人类表现存在显著差异。

📝 摘要(中文)

我们提出了SpinBench,这是一个基于认知的诊断基准,用于评估视觉语言模型(VLMs)中的空间推理能力。SpinBench围绕空间推理的核心挑战——视角转换设计,旨在评估模型如何理解场景和物体关系在视点变化下的变化。由于视角转换需要多种认知能力,如跨视图识别物体、相对位置的基础和心理模拟变换,SpinBench引入了一系列细致的诊断类别。这些类别涵盖了平移、旋转、物体相对姿态和视点变化,并逐步构建,从简单的单物体任务到最具挑战性的多物体视角推理设置。我们评估了37个最先进的VLM,包括专有和开源模型,结果揭示了系统性的弱点,如强烈的自我中心偏见、旋转理解不足以及在对称和句法重构下的不一致性。人类受试者的准确率高达91.2%,而任务难度与VLM的准确率之间存在强相关性,表明SpinBench捕捉了人类与VLM共享的空间推理挑战。

🔬 方法详解

问题定义:本论文旨在解决视觉语言模型在空间推理,特别是视角转换方面的不足。现有方法未能有效捕捉物体关系和场景变化的复杂性。

核心思路:SpinBench通过设计一系列细致的任务类别,评估模型在不同空间推理任务中的表现,尤其关注视角变化对推理的影响。

技术框架:SpinBench的整体架构包括多个任务模块,从简单的单物体任务到复杂的多物体视角推理,逐步增加难度,以便全面评估模型的空间推理能力。

关键创新:SpinBench的主要创新在于其细致的任务分类和逐步构建的难度设计,使得模型在空间推理的评估上更加全面和系统。

关键设计:在设计中,任务类别涵盖平移、旋转、物体相对姿态和视点变化,采用了多样化的测试场景和对象配置,以确保评估的全面性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,37个视觉语言模型在SpinBench测试中表现出显著的自我中心偏见和旋转理解不足,准确率普遍低于人类的91.2%。此外,任务难度与模型准确率之间存在强相关性,表明该基准有效捕捉了空间推理的挑战。

🎯 应用场景

SpinBench的研究成果可广泛应用于智能助手、自动驾驶、虚拟现实等领域,帮助提升视觉语言模型在空间推理方面的能力,进而改善人机交互体验。未来,该基准可能推动更高效的模型设计和训练方法,促进智能系统的智能化发展。

📄 摘要(原文)

We present SpinBench, a cognitively grounded diagnostic benchmark for evaluating spatial reasoning in vision language models (VLMs). SpinBench is designed around the core challenge of spatial reasoning: perspective taking, the ability to reason about how scenes and object relations change under viewpoint transformation. Since perspective taking requires multiple cognitive capabilities, such as recognizing objects across views, relative positions grounding, and mentally simulating transformations, SpinBench introduces a set of fine-grained diagnostic categories. Our categories target translation, rotation, object relative pose, and viewpoint change, and are progressively structured so that single-object simpler tasks scaffold toward the most demanding multi-object perspective-taking setting. We evaluate 37 state-of-the-art VLMs, both proprietary and open source. Results reveal systematic weaknesses: strong egocentric bias, poor rotational understanding, and inconsistencies under symmetrical and syntactic reformulations. Scaling analysis shows both smooth improvements and emergent capabilities. While human subjects achieve high accuracy (91.2\%), task difficulty as measured by human response time shows strong correlation with VLM accuracy, indicating that SpinBench captures spatial reasoning challenges shared across humans and VLMs. We believe SpinBench provides critical insights into spatial reasoning in VLMs and highlights key gaps in their ability to reason about physical space. Our website can be found at https://spinbench25.github.io/.