SpaMEM: Benchmarking Dynamic Spatial Reasoning via Perception-Memory Integration in Embodied Environments

作者: Chih-Ting Liao, Xi Xiao, Chunlei Meng, Zhangquan Chen, Yitong Qiao, Weilin Zhou, Tianyang Wang, Xu Zheng, Xin Cao

分类: cs.CV

发布日期: 2026-04-24

💡 一句话要点

提出SpaMEM基准，评估具身环境中基于感知-记忆整合的动态空间推理能力。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 空间推理 多模态学习 基准测试 视觉记忆

📋 核心要点

现有多模态大语言模型在具身环境下的长期空间推理能力不足，难以根据环境变化持续修正信念。
SpaMEM基准通过动作条件场景转换，隔离空间信念演变机制，从而诊断模型在具身环境中的空间推理能力。
实验结果表明，坐标一致的 grounding 是性能瓶颈，模型过度依赖文本信息，视觉记忆能力不足。

📝 摘要（中文）

多模态大型语言模型(MLLMs)在静态视觉-空间推理方面取得了进展，但它们在具身环境中保持长期空间连贯性方面常常失败，在具身环境中，信念必须根据环境变化下以自我为中心的观察不断修正。我们引入了SpaMEM（来自动作序列的空间记忆），这是一个大规模诊断基准，它通过长交互视野上的动作条件场景转换（生成、放置、移除）来隔离空间信念演变的机制。SpaMEM建立在一个物理基础数据集上，该数据集包含来自1000个程序生成房屋中25000多个交互序列的10,601,392张高保真图像，跨越四种模态（RGB、深度、实例、语义分割）。我们将具身空间推理形式化为一个三级层次结构，包含15个诊断任务：第一级测量来自单个观察的原子空间感知；第二级使用oracle文本状态历史探测时间推理，以分解感知噪声；第三级需要在相同任务维度下从原始视觉流进行端到端信念维护。我们进一步评估短期（逐步）更新和长期（情景）重建。对代表性开源VLM系列的基准测试揭示了一致的堆叠瓶颈：坐标一致的 grounding 仍然是一个硬上限，并且从第二级到第三级的急剧崩溃暴露了明显的符号支架依赖性，模型在基于文本的簿记中取得成功，但在维持稳健的视觉记忆方面却步履蹒跚。SpaMEM提供了一个细粒度的诊断标准，并激发了状态表示、信念修正和长期情景整合的显式机制。

🔬 方法详解

问题定义：现有的大型多模态模型在静态视觉空间推理任务上表现良好，但在具身环境中，由于需要根据自我中心的视角和环境变化不断更新对环境的理解，模型难以保持长期的空间连贯性。现有的方法往往依赖于文本描述进行状态维护，而忽略了视觉信息本身的重要性。

核心思路：SpaMEM的核心思路是通过构建一个大规模的、物理上合理的具身环境数据集，并设计一系列诊断任务，来系统地评估模型在不同层次上的空间推理能力。通过控制环境中的物体生成、放置和移除等动作，可以精确地控制环境状态的变化，从而更好地分析模型的推理过程。

技术框架：SpaMEM基准包含以下几个关键组成部分： 1. 数据集：包含超过1000万张图像，涵盖RGB、深度、实例分割和语义分割四种模态，数据来自程序生成的房屋环境。 2. 交互序列：包含超过25000个交互序列，模拟智能体在环境中的探索和操作。 3. 诊断任务：分为三个层次，共15个任务，分别评估原子空间感知、时间推理和端到端信念维护。 4. 评估指标：包括短期（逐步）更新和长期（情景）重建的性能指标。

关键创新：SpaMEM的关键创新在于其诊断性设计，它将具身空间推理分解为三个层次，并针对每个层次设计了特定的任务。这种分层评估方法可以更精确地定位模型的优势和不足，从而为未来的研究提供更明确的方向。此外，SpaMEM强调了视觉记忆的重要性，并鼓励研究人员开发更有效的视觉状态表示方法。

关键设计：SpaMEM数据集基于程序生成，可以灵活控制环境的复杂度和变化。诊断任务的设计考虑了不同层次的空间推理能力，例如，第一层任务主要评估模型对单个图像的理解能力，而第三层任务则需要模型根据连续的视觉输入来维护对环境的信念。具体任务包括物体定位、关系推理、状态预测等。评估指标包括准确率、召回率等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有VLM在SpaMEM基准上的表现存在明显瓶颈。坐标一致的 grounding 仍然是一个挑战，模型在从第二层（oracle文本）到第三层（原始视觉）的过渡中性能急剧下降，表明模型过度依赖文本信息，视觉记忆能力不足。这些结果为未来的研究提供了明确的方向，即需要开发更有效的视觉状态表示和信念更新机制。

🎯 应用场景

SpaMEM基准的提出，将推动具身智能体在家庭服务机器人、自动驾驶、增强现实等领域的应用。通过提升智能体对环境的理解和推理能力，可以使其更好地完成导航、物体操作、人机交互等任务，从而提高生活质量和工作效率。未来，该研究方向有望实现更智能、更自主的机器人系统。

📄 摘要（原文）

Multimodal large language models (MLLMs) have advanced static visual--spatial reasoning, yet they often fail to preserve long-horizon spatial coherence in embodied settings where beliefs must be continuously revised from egocentric observations under environmental change. We introduce SpaMEM (Spatial Memory from Action Sequences), a large-scale diagnostic benchmark that isolates the mechanics of spatial belief evolution via action-conditioned scene transformations (spawn, place, remove) over long interaction horizons. SpaMEM is built on a physically grounded dataset with 10,601,392 high-fidelity images across four modalities (RGB, depth, instance, semantic segmentation), collected from 25,000+ interaction sequences in 1,000 procedurally generated houses. We formalize embodied spatial reasoning as a three-level hierarchy with 15 diagnostic tasks: Level 1 measures atomic spatial perception from single observations; Level 2 probes temporal reasoning with oracle textual state histories to factor out perceptual noise; and Level 3 requires end-to-end belief maintenance from raw visual streams under the same task dimensions. We further evaluate both short-term (step-wise) updates and long-term (episodic) reconstruction. Benchmarking representative open-source VLM families reveals a consistent stacked bottleneck: coordinate-consistent grounding remains a hard ceiling, and the sharp collapse from Level 2 to Level 3 exposes a pronounced symbolic scaffolding dependency, where models succeed with text-based bookkeeping but struggle to sustain robust visual memory. SpaMEM provides a granular diagnostic standard and motivates explicit mechanisms for state representation, belief revision, and long-horizon episodic integration.

SpaMEM: Benchmarking Dynamic Spatial Reasoning via Perception-Memory Integration in Embodied Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理