ArchSIBench: Benchmarking the Architectural Spatial Intelligence of Vision-Language Models

📄 arXiv: 2605.20837v1 📥 PDF

作者: Qirui Shen, Wenda Wang, Jiachen Lu, Zilong Huang, Jin Bai, Lei He, Hongxuan Chen, Weixin Huang

分类: cs.CV, cs.AI

发布日期: 2026-05-20

备注: 51 pages

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出ArchSIBench,用于评估视觉-语言模型在建筑空间智能方面的能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 建筑空间智能 视觉-语言模型 基准测试 空间推理 具身智能

📋 核心要点

  1. 现有视觉-语言模型在建筑空间认知方面存在不足,缺乏对布局、流线等高级建筑概念的理解。
  2. ArchSIBench基准从建筑学、认知科学等多角度出发,构建了包含17个细粒度子任务的评估体系。
  3. 实验表明,现有模型在建筑空间智能上与人类存在差距,尤其在空间变换和配置推理方面。

📝 摘要(中文)

建筑空间智能,即识别和推断建筑空间的能力,对于机器人导航、具身交互以及3D场景理解和生成等任务至关重要。虽然大量研究评估了视觉-语言模型(VLMs)的基本空间技能,如相对方向、距离比较和对象计数,但这些任务仅涵盖了最基本的空间认知水平,并且在很大程度上忽略了对建筑空间的高级认知,包括布局理解、流线模式和功能分区。本文提出了ArchSIBench,一个基于建筑学、认知科学和心理学视角的建筑空间智能基准。ArchSIBench涵盖五个核心维度:感知、推理、导航、变换和配置,包含17个细粒度子任务。通过具有建筑学背景的专家进行细致的手动标注,构建了3000个问答对,以实现对建筑空间智能的全面评估。基于ArchSIBench,评估了各种VLMs,发现大多数模型的建筑空间智能与人类基线存在显着差异;此外,模型在能力维度上表现出很大的差异。一些最先进的模型可以达到没有建筑学训练的人类评估者的水平。然而,与接受过建筑学训练的人类评估者相比,尤其是在空间变换和配置推理方面,仍然存在明显的差距。我们相信ArchSIBench将为测量和提升VLMs的建筑空间智能提供重要的见解和系统资源。

🔬 方法详解

问题定义:现有视觉-语言模型(VLMs)在空间认知方面主要关注基本能力,如相对方位和距离比较,缺乏对建筑空间高级语义的理解,例如建筑布局、流线模式和功能分区。这限制了VLMs在机器人导航、具身交互和3D场景理解等领域的应用。现有方法难以有效评估VLMs在这些高级建筑空间认知方面的能力。

核心思路:ArchSIBench的核心思路是构建一个综合性的基准数据集,该数据集从建筑学、认知科学和心理学的角度出发,全面评估VLMs在建筑空间智能方面的能力。通过设计涵盖感知、推理、导航、变换和配置五个核心维度,以及17个细粒度子任务的问答对,来系统性地考察VLMs对建筑空间的理解程度。

技术框架:ArchSIBench包含以下几个主要组成部分:1) 数据集构建:由具有建筑学背景的专家进行手动标注,构建包含3000个问答对的数据集。2) 评估维度:定义了感知、推理、导航、变换和配置五个核心维度,每个维度包含多个细粒度子任务。3) 评估指标:使用准确率等指标来评估VLMs在各个子任务上的表现。4) 模型评估:对多种VLMs进行评估,并与人类基线进行比较。

关键创新:ArchSIBench的关键创新在于其对建筑空间智能的全面和细粒度的评估。与以往只关注基本空间技能的基准不同,ArchSIBench关注VLMs对建筑空间布局、流线模式和功能分区等高级语义的理解。此外,该基准还引入了建筑学、认知科学和心理学的视角,使得评估更加科学和全面。

关键设计:ArchSIBench的关键设计包括:1) 五个核心维度和17个细粒度子任务的划分,确保了对建筑空间智能的全面覆盖。2) 由建筑学专家进行手动标注,保证了数据集的质量和专业性。3) 问答对的设计,使得评估过程更加直观和可解释。4) 与人类基线进行比较,可以更清晰地了解VLMs与人类在建筑空间智能方面的差距。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLMs在ArchSIBench上的表现与人类基线存在显著差距,尤其是在空间变换和配置推理方面。一些先进模型在没有建筑学训练的情况下可以接近人类评估者的水平,但与接受过建筑学训练的人类评估者相比仍有差距。这些结果突显了现有模型在建筑空间智能方面的不足,并为未来的研究方向提供了指导。

🎯 应用场景

ArchSIBench的研究成果可应用于机器人导航、具身交互、3D场景理解与生成等领域。通过提升视觉-语言模型对建筑空间的理解能力,可以使机器人在复杂环境中更好地进行导航和交互,并促进更逼真的3D建筑场景生成。该研究还有助于开发更智能的建筑设计工具和辅助系统。

📄 摘要(原文)

Architectural spatial intelligence, the ability to recognize and infer architectural space, is fundamental to tasks such as robot navigation, embodied interaction, and 3D scene understanding and generation. Although extensive research has evaluated the basic spatial skills of Vision-Language Models (VLMs) such as relative orientation, distance comparison, and object counting, these tasks cover only the most elementary levels of spatial cognition and largely overlook higher-level cognition of architectural space, including layout understanding, circulation patterns, and functional zoning. In this work, we present ArchSIBench, a Benchmark for Architectural Spatial Intelligence based on the perspectives from architecture, cognitive science, and psychology. ArchSIBench covers five core dimensions: perception, reasoning, navigation, transformation, and configuration, comprising 17 fine-grained subtasks. Through careful manual annotation by experts with architectural backgrounds, we construct 3,000 question-answer pairs to enable comprehensive evaluation of architectural spatial intelligence. Based on ArchSIBench, we evaluate various VLMs and find that the architectural spatial intelligence of most models shows significant differences from human baselines; additionally, models exhibit substantial variability across capability dimensions. Some state-of-the-art models can approach the level of human evaluators without architectural training. However, a clear gap remains compared to human evaluators with architectural training, particularly in spatial transformation and configuration reasoning. We believe that ArchSIBench will provide important insights and systematic resources for measuring and advancing the architectural spatial intelligence of VLMs. The dataset and code are available at https://huggingface.co/datasets/ArchSIBench/ArchSIBench.