SpaMEM: Benchmarking Dynamic Spatial Reasoning via Perception-Memory Integration in Embodied Environments

📄 arXiv: 2604.22409v1 📥 PDF

作者: Chih-Ting Liao, Xi Xiao, Chunlei Meng, Zhangquan Chen, Yitong Qiao, Weilin Zhou, Tianyang Wang, Xu Zheng, Xin Cao

分类: cs.CV

发布日期: 2026-04-24


💡 一句话要点

提出SpaMEM基准,评估具身环境中基于感知-记忆整合的动态空间推理能力。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 空间推理 多模态学习 基准测试 视觉记忆

📋 核心要点

  1. 现有多模态大语言模型在具身环境下的长期空间推理能力不足,难以根据环境变化持续修正信念。
  2. SpaMEM基准通过动作条件场景转换,隔离空间信念演变机制,从而诊断模型在具身环境中的空间推理能力。
  3. 实验结果表明,坐标一致的 grounding 是性能瓶颈,模型过度依赖文本信息,视觉记忆能力不足。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在静态视觉-空间推理方面取得了进展,但它们在具身环境中保持长期空间连贯性方面常常失败,在具身环境中,信念必须根据环境变化下以自我为中心的观察不断修正。我们引入了SpaMEM(来自动作序列的空间记忆),这是一个大规模诊断基准,它通过长交互视野上的动作条件场景转换(生成、放置、移除)来隔离空间信念演变的机制。SpaMEM建立在一个物理基础数据集上,该数据集包含来自1000个程序生成房屋中25000多个交互序列的10,601,392张高保真图像,跨越四种模态(RGB、深度、实例、语义分割)。我们将具身空间推理形式化为一个三级层次结构,包含15个诊断任务:第一级测量来自单个观察的原子空间感知;第二级使用oracle文本状态历史探测时间推理,以分解感知噪声;第三级需要在相同任务维度下从原始视觉流进行端到端信念维护。我们进一步评估短期(逐步)更新和长期(情景)重建。对代表性开源VLM系列的基准测试揭示了一致的堆叠瓶颈:坐标一致的 grounding 仍然是一个硬上限,并且从第二级到第三级的急剧崩溃暴露了明显的符号支架依赖性,模型在基于文本的簿记中取得成功,但在维持稳健的视觉记忆方面却步履蹒跚。SpaMEM提供了一个细粒度的诊断标准,并激发了状态表示、信念修正和长期情景整合的显式机制。

🔬 方法详解

问题定义:现有的大型多模态模型在静态视觉空间推理任务上表现良好,但在具身环境中,由于需要根据自我中心的视角和环境变化不断更新对环境的理解,模型难以保持长期的空间连贯性。现有的方法往往依赖于文本描述进行状态维护,而忽略了视觉信息本身的重要性。

核心思路:SpaMEM的核心思路是通过构建一个大规模的、物理上合理的具身环境数据集,并设计一系列诊断任务,来系统地评估模型在不同层次上的空间推理能力。通过控制环境中的物体生成、放置和移除等动作,可以精确地控制环境状态的变化,从而更好地分析模型的推理过程。

技术框架:SpaMEM基准包含以下几个关键组成部分: 1. 数据集:包含超过1000万张图像,涵盖RGB、深度、实例分割和语义分割四种模态,数据来自程序生成的房屋环境。 2. 交互序列:包含超过25000个交互序列,模拟智能体在环境中的探索和操作。 3. 诊断任务:分为三个层次,共15个任务,分别评估原子空间感知、时间推理和端到端信念维护。 4. 评估指标:包括短期(逐步)更新和长期(情景)重建的性能指标。

关键创新:SpaMEM的关键创新在于其诊断性设计,它将具身空间推理分解为三个层次,并针对每个层次设计了特定的任务。这种分层评估方法可以更精确地定位模型的优势和不足,从而为未来的研究提供更明确的方向。此外,SpaMEM强调了视觉记忆的重要性,并鼓励研究人员开发更有效的视觉状态表示方法。

关键设计:SpaMEM数据集基于程序生成,可以灵活控制环境的复杂度和变化。诊断任务的设计考虑了不同层次的空间推理能力,例如,第一层任务主要评估模型对单个图像的理解能力,而第三层任务则需要模型根据连续的视觉输入来维护对环境的信念。具体任务包括物体定位、关系推理、状态预测等。评估指标包括准确率、召回率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLM在SpaMEM基准上的表现存在明显瓶颈。坐标一致的 grounding 仍然是一个挑战,模型在从第二层(oracle文本)到第三层(原始视觉)的过渡中性能急剧下降,表明模型过度依赖文本信息,视觉记忆能力不足。这些结果为未来的研究提供了明确的方向,即需要开发更有效的视觉状态表示和信念更新机制。

🎯 应用场景

SpaMEM基准的提出,将推动具身智能体在家庭服务机器人、自动驾驶、增强现实等领域的应用。通过提升智能体对环境的理解和推理能力,可以使其更好地完成导航、物体操作、人机交互等任务,从而提高生活质量和工作效率。未来,该研究方向有望实现更智能、更自主的机器人系统。

📄 摘要(原文)

Multimodal large language models (MLLMs) have advanced static visual--spatial reasoning, yet they often fail to preserve long-horizon spatial coherence in embodied settings where beliefs must be continuously revised from egocentric observations under environmental change. We introduce SpaMEM (Spatial Memory from Action Sequences), a large-scale diagnostic benchmark that isolates the mechanics of spatial belief evolution via action-conditioned scene transformations (spawn, place, remove) over long interaction horizons. SpaMEM is built on a physically grounded dataset with 10,601,392 high-fidelity images across four modalities (RGB, depth, instance, semantic segmentation), collected from 25,000+ interaction sequences in 1,000 procedurally generated houses. We formalize embodied spatial reasoning as a three-level hierarchy with 15 diagnostic tasks: Level 1 measures atomic spatial perception from single observations; Level 2 probes temporal reasoning with oracle textual state histories to factor out perceptual noise; and Level 3 requires end-to-end belief maintenance from raw visual streams under the same task dimensions. We further evaluate both short-term (step-wise) updates and long-term (episodic) reconstruction. Benchmarking representative open-source VLM families reveals a consistent stacked bottleneck: coordinate-consistent grounding remains a hard ceiling, and the sharp collapse from Level 2 to Level 3 exposes a pronounced symbolic scaffolding dependency, where models succeed with text-based bookkeeping but struggle to sustain robust visual memory. SpaMEM provides a granular diagnostic standard and motivates explicit mechanisms for state representation, belief revision, and long-horizon episodic integration.