SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

📄 arXiv: 2605.27367v1 📥 PDF

作者: Haosong Peng, Hao Li, Jiaqi Chen, Yuhao Pan, Runmao Yao, Yalun Dai, Fushuo Huo, Fangzhou Hong, Zhaoxi Chen, Haozhao Wang, Dingwen Zhang, Ziwei Liu, Wenchao Xu

分类: cs.CV

发布日期: 2026-05-26

备注: Project Page: https://ropedia.github.io/SpatialBench/


💡 一句话要点

SpatialBench:用于评估空间基础模型泛化能力的跨领域、多任务基准测试。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间基础模型 基准测试 泛化能力 跨领域 多任务 确定性采样 领域对齐

📋 核心要点

  1. 现有空间基础模型评估主要集中在特定领域,缺乏跨领域、多任务的泛化能力评估。
  2. SpatialBench通过构建大规模、领域多样化的基准测试,采用确定性采样,全面评估模型。
  3. 实验结果表明,现有模型泛化能力不足,并揭示了全上下文注意力、领域对齐等关键因素的重要性。

📝 摘要(中文)

空间基础模型在标准数据集上表现出色,但其在不同下游任务、视角、场景领域、输入密度和硬件约束下的泛化能力仍待考量。为了全面评估,我们提出了SpatialBench,一个跨范式、领域多样化的空间基础模型基准测试,采用确定性采样。SpatialBench包含19个数据集和546个场景,涵盖5个不同的空间领域。它在6个范式和5个任务套件下,以4种不同的输入密度设置,全面评估了41个模型。评估表明,现有模型尚未达到全能水平,并揭示了未来发展的关键见解。例如,全上下文注意力最大化了准确性,而有界内存策略解锁了长序列可扩展性。此外,在具身和自我中心任务中的评估表明,严格的领域对齐和高质量数据比简单的数据集扩展更为重要。为了解决分析中发现的最大数据差距,我们引入了大规模数据集DA-Next-5M和一个强大的基线模型DA-Next,推动了空间表征学习的边界。

🔬 方法详解

问题定义:现有空间基础模型主要在特定领域的数据集上进行评估,无法全面评估其在不同下游任务、视角、场景领域、输入密度和硬件约束下的泛化能力。这种评估方式的局限性在于范式覆盖范围窄、场景领域有限以及帧采样随意性大。

核心思路:为了解决上述问题,论文提出了SpatialBench,一个跨范式、领域多样化的基准测试,旨在通过大规模、确定性的评估来衡量空间基础模型的泛化能力。核心思想是构建一个包含多种空间领域、任务和输入密度的综合性评估平台。

技术框架:SpatialBench包含19个数据集和546个场景,涵盖5个不同的空间领域。它支持6个范式(例如,语义分割、目标检测、场景重建)和5个任务套件。评估过程中,采用4种不同的输入密度设置。论文评估了41个模型,并分析了不同模型在不同设置下的性能表现。此外,论文还提出了一个新的大规模数据集DA-Next-5M和一个强大的基线模型DA-Next。

关键创新:SpatialBench的关键创新在于其跨范式、领域多样性和确定性采样的设计。与以往的评估方法相比,SpatialBench能够更全面、更客观地评估空间基础模型的泛化能力。此外,DA-Next-5M数据集和DA-Next模型也为空间表征学习提供了新的资源和基线。

关键设计:SpatialBench的场景选择和数据采样经过精心设计,以确保评估的公平性和代表性。例如,论文采用了确定性采样策略,避免了随机采样带来的偏差。DA-Next模型可能采用了某种特定的网络结构或训练策略,以提高其在DA-Next-5M数据集上的性能(具体细节未知)。

📊 实验亮点

SpatialBench的评估结果表明,现有空间基础模型在跨领域、多任务的泛化能力方面仍有不足。实验发现,全上下文注意力机制能够最大化准确率,而有界内存策略能够提升长序列处理能力。此外,严格的领域对齐和高质量数据比简单的数据集规模扩展更为重要。DA-Next模型在DA-Next-5M数据集上取得了显著的性能提升(具体数值未知)。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、增强现实、虚拟现实等领域。通过SpatialBench,研究人员可以更有效地评估和改进空间基础模型,从而提升这些应用在复杂环境中的性能和鲁棒性。此外,DA-Next-5M数据集和DA-Next模型可以作为这些领域研究的起点。

📄 摘要(原文)

While spatial foundation models have demonstrated impressive performance on standard datasets, a critical question remains: are they truly all-round players capable of generalizing robustly across diverse downstream tasks, arbitrary viewpoints, shifting scene domains, varying input densities, and specific hardware constraints? Answering this overarching question requires a holistic assessment, yet current models are mainly evaluated on specific domains for which they were specifically designed or trained. Such evaluations are intrinsically limited by narrow paradigm coverage, limited scene domains, and arbitrary frame sampling, making it fundamentally difficult to assess their true generalization capabilities. To address this gap, we present SpatialBench, a cross-paradigm, domain-diverse benchmark for spatial foundation models with deterministic sampling. SpatialBench features unprecedented scale and rigorous deterministic design, comprising 19 datasets and 546 scenes across 5 diverse spatial domains. It comprehensively evaluates 41 models across 6 paradigms on 5 task suites under 4 different input density settings. Our extensive evaluation reveals that current models are not yet all-round players, and uncovers crucial insights for future advancement. Specifically, we demonstrate that full-context attention maximizes accuracy while bounded-memory strategies unlock long-sequence scalability. Moreover, our empirical evaluations in challenging embodied and egocentric tasks demonstrate that strict domain alignment and high data quality are far more critical to performance than simple dataset scaling. Furthermore, to address the largest data gap identified in our analysis, we go beyond evaluation by introducing a large-scale dataset, DA-Next-5M, and a strong baseline model, DA-Next, pushing the boundaries of spatial representation learning.