Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

📄 arXiv: 2505.03821v1 📥 PDF

作者: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

分类: cs.CV, cs.AI

发布日期: 2025-05-03

备注: Dataset: https://huggingface.co/datasets/Gracjan/Isle/viewer/Isle-Brick-V2


💡 一句话要点

提出视觉视角获取评测基准,揭示VLM在空间推理上的不足

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉语言模型 视觉视角获取 空间推理 场景理解 评测基准

📋 核心要点

  1. 现有VLM在视觉视角获取和空间推理方面存在不足,无法有效处理复杂视觉任务。
  2. 设计了一系列受人类测试启发的视觉任务,用于评估VLM在场景理解、空间推理和视角获取方面的能力。
  3. 实验结果表明,现有VLM在场景理解方面表现良好,但在空间推理和视角获取方面性能显著下降。

📝 摘要(中文)

本文研究了视觉语言模型(VLMs)执行视觉视角获取的能力,使用了一套受人类测试启发的全新视觉任务。该方法利用精心控制的场景,其中一个类人迷你人偶与一个物体配对。通过系统地改变空间配置(例如物体相对于类人迷你人偶的位置和类人迷你人偶的方向),并使用鸟瞰图和表面视图,创建了144个独特的视觉任务。每个视觉任务都与一系列7个诊断问题配对,旨在评估三个层次的视觉认知:场景理解、空间推理和视觉视角获取。对包括GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct和Claude Sonnet变体在内的多个最先进模型的评估表明,虽然它们在场景理解方面表现出色,但在空间推理方面的性能显著下降,在视角获取方面的性能进一步恶化。分析表明,表面层面的物体识别与复杂视觉任务所需的更深层次的空间和视角推理之间存在差距,这表明未来VLM的开发需要整合显式几何表示和定制的训练协议。

🔬 方法详解

问题定义:论文旨在评估视觉语言模型(VLMs)在视觉视角获取(Visual Perspective Taking)方面的能力。现有VLM虽然在物体识别方面表现出色,但在理解场景中物体之间的空间关系以及从不同视角进行推理方面存在不足,这限制了它们在需要复杂空间推理的任务中的应用。

核心思路:论文的核心思路是设计一套精心控制的视觉任务,模拟人类在进行视角转换时所面临的挑战。通过系统地改变场景中物体的位置、人偶的朝向以及观察视角,来考察VLM能否准确理解场景的空间布局,并推断出从不同视角观察到的景象。

技术框架:该研究构建了一个包含144个独特视觉任务的数据集。每个任务包含一个场景图像,场景中有一个类人迷你人偶和一个物体。每个场景都配有7个诊断问题,这些问题旨在评估VLM在三个认知层次上的表现:场景理解(Scene Understanding)、空间推理(Spatial Reasoning)和视觉视角获取(Visual Perspective Taking)。模型需要根据图像回答这些问题。

关键创新:该研究的关键创新在于设计了一套专门用于评估VLM视觉视角获取能力的评测基准。与以往主要关注物体识别的研究不同,该基准侧重于考察VLM对场景空间关系的理解和推理能力。通过精心设计的场景和诊断问题,可以更准确地评估VLM在视觉认知方面的不足。

关键设计:场景设计中,关键参数包括物体相对于人偶的位置(前后左右)、人偶的朝向(面向物体、背向物体等)以及观察视角(鸟瞰图、表面视图)。诊断问题分为三个层次,分别考察VLM对场景基本元素的识别、空间关系的理解以及从人偶视角观察到的景象的推断。评估指标包括模型在每个认知层次上的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct和Claude Sonnet等先进VLM在场景理解方面表现良好,但在空间推理和视角获取方面的性能显著下降。例如,在视角获取任务上的准确率远低于场景理解任务。这表明现有VLM在处理需要复杂空间推理的视觉任务时存在明显不足。

🎯 应用场景

该研究成果可应用于提升机器人在复杂环境中的导航和交互能力。例如,机器人可以利用视觉视角获取能力,更好地理解人类的意图,并根据人类的视角调整自身行为。此外,该研究也有助于开发更智能的虚拟助手和游戏AI,使其能够更自然地与用户进行交互。

📄 摘要(原文)

We investigate the ability of Vision Language Models (VLMs) to perform visual perspective taking using a novel set of visual tasks inspired by established human tests. Our approach leverages carefully controlled scenes, in which a single humanoid minifigure is paired with a single object. By systematically varying spatial configurations - such as object position relative to the humanoid minifigure and the humanoid minifigure's orientation - and using both bird's-eye and surface-level views, we created 144 unique visual tasks. Each visual task is paired with a series of 7 diagnostic questions designed to assess three levels of visual cognition: scene understanding, spatial reasoning, and visual perspective taking. Our evaluation of several state-of-the-art models, including GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that while they excel in scene understanding, the performance declines significantly on spatial reasoning and further deteriorates on perspective-taking. Our analysis suggests a gap between surface-level object recognition and the deeper spatial and perspective reasoning required for complex visual tasks, pointing to the need for integrating explicit geometric representations and tailored training protocols in future VLM development.