LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

📄 arXiv: 2507.20174v1 📥 PDF

作者: Fei Kong, Jinhao Duan, Kaidi Xu, Zhenhua Guo, Xiaofeng Zhu, Xiaoshuang Shi

分类: cs.CV, cs.AI

发布日期: 2025-07-27

🔗 代码/项目: GITHUB


💡 一句话要点

LRR-Bench:揭示视觉-语言模型在空间理解任务中的不足

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)

关键词: 视觉-语言模型 空间理解 基准测试 合成数据集 3D空间 绝对空间 机器人 自动驾驶

📋 核心要点

  1. 现有视觉-语言模型在自动驾驶和机器人操作等需要精确空间感知的实际应用中,对空间关系的理解和空间运动的感知能力不足。
  2. 论文构建了一个合成数据集LRR-Bench,用于评估VLM在绝对空间(左、右)和3D空间(运动、旋转)理解方面的能力。
  3. 实验表明,现有VLM在空间理解任务上的表现远低于人类水平,尤其是在复杂的3D空间理解任务中,性能接近于零。

📝 摘要(中文)

本文提出了一种空间评估流程并构建了相应的基准测试LRR-Bench,旨在评估视觉-语言模型(VLM)在空间关系识别和空间运动感知方面的能力。该基准将空间理解分为两类:绝对空间理解(例如,物体在图像中的左、右位置)和3D空间理解(包括运动和旋转)。数据集完全是合成的,从而能够以低成本生成测试样本,并防止数据集污染。对多个最先进的VLM进行了实验,结果表明它们在空间理解能力方面仍有很大的改进空间。在实验中,人类在所有任务上都取得了接近完美的表现,而当前的VLM仅在两个最简单的任务上达到了人类水平。对于其余任务,VLM的性能明显低于人类。事实上,性能最佳的视觉-语言模型甚至在多个任务上获得了接近零的分数。数据集和代码已在https://github.com/kong13661/LRR-Bench上提供。

🔬 方法详解

问题定义:现有视觉-语言模型在理解图像中物体间的空间关系,特别是绝对空间位置(如左右)和3D空间运动(如旋转)方面存在不足。这限制了它们在需要精确空间感知的实际应用中的应用,例如自动驾驶和机器人操作。现有方法缺乏系统的评估和基准测试,难以衡量和提升VLM的空间理解能力。

核心思路:论文的核心思路是构建一个可控的、无污染的合成数据集,用于系统地评估VLM在不同类型的空间理解任务上的表现。通过对比VLM和人类在相同任务上的表现,揭示VLM在空间理解方面的差距和不足。

技术框架:该研究主要包含两个部分:一是构建空间评估流程,将空间理解分为绝对空间理解和3D空间理解两类;二是构建相应的基准测试LRR-Bench,包含多种空间理解任务。数据集完全由计算机合成,保证了数据的可控性和无污染性。然后,使用该基准测试评估多个最先进的VLM在不同空间理解任务上的性能。

关键创新:该论文的关键创新在于提出了一个完全合成的、可控的空间理解基准测试LRR-Bench。与以往依赖真实图像的基准测试不同,LRR-Bench可以低成本地生成大量测试样本,并避免了数据集污染的问题。此外,该基准测试系统地评估了VLM在不同类型的空间理解任务上的表现,为后续研究提供了有价值的参考。

关键设计:LRR-Bench包含多种空间理解任务,例如判断物体在图像中的左右位置、判断物体的旋转方向等。数据集的生成过程是参数化的,可以控制物体的数量、位置、大小、颜色等属性。评估指标包括准确率等。论文没有详细描述具体的网络结构或损失函数,因为重点在于基准测试的构建和评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLM在空间理解任务上的表现远低于人类水平。在绝对空间理解任务中,VLM的性能接近人类水平,但在3D空间理解任务中,VLM的性能显著下降,甚至接近于零。这表明现有VLM在理解复杂的空间关系和空间运动方面仍存在很大的不足,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于提升自动驾驶系统和机器人操作系统的空间感知能力。通过使用LRR-Bench评估和改进VLM的空间理解能力,可以提高自动驾驶车辆对周围环境的理解和预测能力,以及提升机器人执行复杂操作的精度和可靠性。此外,该基准测试也可用于评估和比较不同VLM的空间理解能力,推动相关领域的研究进展。

📄 摘要(原文)

Real-world applications, such as autonomous driving and humanoid robot manipulation, require precise spatial perception. However, it remains underexplored how Vision-Language Models (VLMs) recognize spatial relationships and perceive spatial movement. In this work, we introduce a spatial evaluation pipeline and construct a corresponding benchmark. Specifically, we categorize spatial understanding into two main types: absolute spatial understanding, which involves querying the absolute spatial position (e.g., left, right) of an object within an image, and 3D spatial understanding, which includes movement and rotation. Notably, our dataset is entirely synthetic, enabling the generation of test samples at a low cost while also preventing dataset contamination. We conduct experiments on multiple state-of-the-art VLMs and observe that there is significant room for improvement in their spatial understanding abilities. Explicitly, in our experiments, humans achieve near-perfect performance on all tasks, whereas current VLMs attain human-level performance only on the two simplest tasks. For the remaining tasks, the performance of VLMs is distinctly lower than that of humans. In fact, the best-performing Vision-Language Models even achieve near-zero scores on multiple tasks. The dataset and code are available on https://github.com/kong13661/LRR-Bench.