Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

📄 arXiv: 2601.00092v1 📥 PDF

作者: Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu

分类: cs.CV

发布日期: 2025-12-31

备注: Technical Report


💡 一句话要点

提出Spatial4D-Bench,用于全面评估多模态大语言模型在4D空间智能方面的能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 4D空间智能 多模态大语言模型 基准测试 空间推理 时空推理 机器人导航 自动驾驶

📋 核心要点

  1. 现有空间智能基准规模小、多样性有限,难以全面评估多模态大语言模型(MLLMs)的4D空间推理能力。
  2. Spatial4D-Bench构建大规模、多任务的评估基准,包含4万个问答对,覆盖18个任务,系统评估MLLMs的4D空间智能。
  3. 实验表明,现有MLLMs在路线规划、动作识别和物理合理性推理等4D空间推理方面存在显著局限性。

📝 摘要(中文)

本文提出了Spatial4D-Bench,一个多功能的4D空间智能基准,旨在全面评估多模态大语言模型(MLLMs)的4D空间推理能力。与现有的小规模或多样性有限的空间智能基准不同,Spatial4D-Bench提供了一个大规模、多任务的评估基准,包含约40,000个问答对,涵盖18个明确定义的任务。这些任务被系统地组织成六个认知类别:对象理解、场景理解、空间关系理解、时空关系理解、空间推理和时空推理。Spatial4D-Bench为评估MLLMs的空间认知能力提供了一个结构化和全面的基准,涵盖了广泛的任务,与人类空间智能的多功能性相媲美。通过对各种最先进的开源和专有MLLMs进行基准测试,揭示了它们在各种4D空间推理方面的重大局限性,例如路线规划、动作识别和物理合理性推理。希望这项工作提供的发现能为社区提供有价值的见解,并且我们的基准可以促进开发更强大的MLLMs,使其达到人类水平的4D空间智能。

🔬 方法详解

问题定义:现有空间智能基准通常规模较小,覆盖的任务类型有限,难以全面评估多模态大语言模型(MLLMs)在理解和推理物体随时间变化方面的能力,即4D空间智能。现有方法缺乏一个统一、大规模、多样化的基准来系统地评估MLLMs在4D空间推理方面的能力,阻碍了该领域的发展。

核心思路:Spatial4D-Bench的核心思路是构建一个大规模、多任务的基准,涵盖广泛的4D空间推理任务,并将其系统地组织成不同的认知类别。通过提供多样化的任务和全面的评估指标,Spatial4D-Bench旨在揭示MLLMs在4D空间智能方面的优势和不足,并促进更强大的MLLMs的开发。

技术框架:Spatial4D-Bench包含约40,000个问答对,涵盖18个明确定义的任务,这些任务被组织成六个认知类别:对象理解、场景理解、空间关系理解、时空关系理解、空间推理和时空推理。每个任务都包含多个场景和问题,旨在评估MLLMs在不同方面的4D空间推理能力。基准测试过程包括将场景和问题输入到MLLM中,并评估其生成的答案的准确性。

关键创新:Spatial4D-Bench的关键创新在于其大规模、多任务和多样化的特性。与现有的空间智能基准相比,Spatial4D-Bench提供了更全面的评估,涵盖了更广泛的4D空间推理任务。此外,Spatial4D-Bench的任务组织方式使其能够系统地评估MLLMs在不同认知类别中的表现。

关键设计:Spatial4D-Bench的关键设计包括任务的选择、场景的生成和问题的设计。任务的选择基于对人类4D空间智能能力的分析,场景的生成旨在模拟真实世界的环境,问题的设计旨在评估MLLMs在不同方面的4D空间推理能力。具体的技术细节包括使用不同的数据增强技术来增加数据集的多样性,以及使用不同的评估指标来评估MLLMs的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Spatial4D-Bench上对多种最先进的开源和专有MLLMs进行了基准测试,结果表明,这些模型在路线规划、动作识别和物理合理性推理等多个4D空间推理方面存在显著局限性。例如,在物理合理性推理任务中,模型的准确率远低于人类水平,表明MLLMs在理解物理世界规律方面仍有很大的提升空间。

🎯 应用场景

Spatial4D-Bench可应用于机器人导航、自动驾驶、视频监控、游戏AI等领域。通过评估和提升MLLMs的4D空间智能,可以使机器人在复杂动态环境中更好地理解和交互,从而实现更安全、高效和智能的应用。

📄 摘要(原文)

4D spatial intelligence involves perceiving and processing how objects move or change over time. Humans naturally possess 4D spatial intelligence, supporting a broad spectrum of spatial reasoning abilities. To what extent can Multimodal Large Language Models (MLLMs) achieve human-level 4D spatial intelligence? In this work, we present Spatial4D-Bench, a versatile 4D spatial intelligence benchmark designed to comprehensively assess the 4D spatial reasoning abilities of MLLMs. Unlike existing spatial intelligence benchmarks that are often small-scale or limited in diversity, Spatial4D-Bench provides a large-scale, multi-task evaluation benchmark consisting of ~40,000 question-answer pairs covering 18 well-defined tasks. We systematically organize these tasks into six cognitive categories: object understanding, scene understanding, spatial relationship understanding, spatiotemporal relationship understanding, spatial reasoning and spatiotemporal reasoning. Spatial4D-Bench thereby offers a structured and comprehensive benchmark for evaluating the spatial cognition abilities of MLLMs, covering a broad spectrum of tasks that parallel the versatility of human spatial intelligence. We benchmark various state-of-the-art open-source and proprietary MLLMs on Spatial4D-Bench and reveal their substantial limitations in a wide variety of 4D spatial reasoning aspects, such as route plan, action recognition, and physical plausibility reasoning. We hope that the findings provided in this work offer valuable insights to the community and that our benchmark can facilitate the development of more capable MLLMs toward human-level 4D spatial intelligence. More resources can be found on our project page.