SpatialViz-Bench: An MLLM Benchmark for Spatial Visualization
作者: Siting Wang, Minnan Pei, Luoyang Sun, Cheng Deng, Kun Shao, Zheng Tian, Haifeng Zhang, Jun Wang
分类: cs.CV, cs.CL, cs.HC
发布日期: 2025-07-10 (更新: 2025-09-02)
💡 一句话要点
提出SpatialViz-Bench,用于评估多模态大语言模型在空间可视化方面的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 空间可视化 基准测试 空间推理 2D-3D转换
📋 核心要点
- 现有方法在评估MLLM空间可视化能力时,通常将其嵌入在更广泛的数学和逻辑评估中,缺乏针对性。
- SpatialViz-Bench通过12个任务和4个子能力,全面评估MLLM在空间推理、2D/3D转换等方面的能力。
- 实验结果揭示了现有MLLM在空间可视化方面的不足,并发现了一些反直觉的现象,如2D到3D性能断崖。
📝 摘要(中文)
本文提出了SpatialViz-Bench,一个用于评估多模态大语言模型(MLLMs)空间可视化能力的综合性多模态基准。该基准包含12个任务,涵盖4个子能力,共计1180个自动生成的问题。对33个最先进的MLLMs的评估不仅揭示了它们在性能上的巨大差异,证明了该基准的强大区分能力,而且还发现了违反直觉的结论:模型在感知方面表现出与人类直觉不符的困难,呈现出显著的2D到3D性能断崖,倾向于公式推导而非可视化,并且开源模型在使用思维链提示时反而会出现性能下降。通过对错误类型的统计和定性分析,SpatialViz-Bench表明,最先进的MLLMs在空间可视化任务中仍然存在不足,从而解决了该领域的一个重大空白。基准数据和评估代码已公开。
🔬 方法详解
问题定义:现有方法评估多模态大语言模型(MLLMs)的空间可视化能力时,通常将其与更广泛的数学和逻辑推理能力混淆,缺乏专门针对空间可视化的评估基准。此外,现有评估方法依赖的IQ测试或数学竞赛可能与训练数据存在重叠,影响评估的可靠性。因此,需要一个专门的、可靠的基准来评估MLLMs的空间可视化能力。
核心思路:SpatialViz-Bench的核心思路是设计一系列专门针对空间可视化的任务,这些任务涵盖了不同的空间推理能力,例如2D/3D转换、形状操作、空间关系理解等。通过这些任务,可以更全面、更准确地评估MLLMs在空间可视化方面的能力。该基准采用自动生成问题的方式,避免了与训练数据重叠的问题,提高了评估的可靠性。
技术框架:SpatialViz-Bench包含12个任务,这些任务被划分为4个子能力:空间推理、2D/3D转换、形状操作和空间关系理解。每个任务都包含多个自动生成的问题。评估流程包括:1) 将问题输入到MLLM;2) MLLM生成答案;3) 将生成的答案与标准答案进行比较,计算准确率等指标。
关键创新:SpatialViz-Bench的关键创新在于:1) 它是第一个专门针对MLLMs空间可视化能力的综合性基准;2) 它采用了自动生成问题的方式,避免了与训练数据重叠的问题;3) 它涵盖了多个不同的空间推理能力,可以更全面地评估MLLMs的空间可视化能力。
关键设计:SpatialViz-Bench的任务设计考虑了人类在空间可视化方面的认知过程,例如,2D/3D转换任务模拟了人类将二维图像转换为三维图像的能力。为了保证问题的难度和区分度,SpatialViz-Bench采用了多种参数控制方法,例如,控制形状的复杂度、空间关系的难度等。此外,SpatialViz-Bench还提供了详细的评估指标,例如准确率、召回率等,方便研究人员进行比较和分析。
🖼️ 关键图片
📊 实验亮点
SpatialViz-Bench评估了33个最先进的MLLMs,结果表明它们在空间可视化方面存在显著差异。一些模型在2D任务上表现良好,但在3D任务上表现出明显的性能下降(2D-to-3D性能断崖)。此外,研究还发现,开源模型在使用思维链提示时,性能反而会下降,这表明现有方法在利用思维链进行空间推理方面仍存在挑战。
🎯 应用场景
SpatialViz-Bench可用于评估和改进多模态大语言模型在机器人导航、自动驾驶、医学图像分析、建筑设计等领域的应用。通过提高模型在空间可视化方面的能力,可以使其更好地理解和处理现实世界中的空间信息,从而提高其在这些领域的性能。
📄 摘要(原文)
Humans can directly imagine and manipulate visual images in their minds, a capability known as spatial visualization. While multi-modal Large Language Models (MLLMs) support imagination-based reasoning, spatial visualization remains insufficiently evaluated, typically embedded within broader mathematical and logical assessments. Existing evaluations often rely on IQ tests or math competitions that may overlap with training data, compromising assessment reliability. To this end, we introduce SpatialViz-Bench, a comprehensive multi-modal benchmark for spatial visualization with 12 tasks across 4 sub-abilities, comprising 1,180 automatically generated problems. Our evaluation of 33 state-of-the-art MLLMs not only reveals wide performance variations and demonstrates the benchmark's strong discriminative power, but also uncovers counter-intuitive findings: models show difficulty perception misaligned with human intuition, exhibit dramatic 2Dto-3D performance cliffs, default to formulaic derivation over visualization, and paradoxically suffer performance degradation from Chain-of-Thought prompting in open-source models. Through statistical and qualitative analysis of error types, SpatialViz-Bench demonstrates that state-of-the-art MLLMs continue to exhibit deficiencies in spatial visualization tasks, thereby addressing a significant lacuna in the field. The benchmark data and evaluation code are publicly available.