Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action

作者: Pengteng Li, Weiyu Guo, He Zhang, Tiefu Cai, Xiao He, Yandong Guo, Hui Xiong

分类: cs.RO

发布日期: 2026-05-21

备注: Accepted by ICML 2026

💡 一句话要点

SOMA：为视觉-语言-动作模型构建空间记忆，实现视野外操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 空间记忆 视野外操作 视觉-语言-动作模型 机器人操作 多视角学习

📋 核心要点

现有VLA模型在目标超出视野时表现不佳，缺乏对环境的持久记忆。
SOMA框架通过构建空间记忆，使VLA模型能够推理视野外的物体，提升操作能力。
实验表明，SOMA提高了视野外操作的成功率，并优化了操作行为，如快速定位和一次性抓取。

📝 摘要（中文）

本文提出了一种名为SOMA的空间记忆框架，用于视觉-语言-动作(VLA)模型中的视野外操作。现有VLA模型大多隐式地假设任务相关的对象始终可见，这导致当目标超出相机视野时，行为变得脆弱且反应迟钝。SOMA通过配备一个由可移动头部相机获取的多视角观测构建的持久空间记忆来解决这一限制，从而实现超出当前视觉视锥的推理。该框架包含三个组件：空间记忆构建，通过扫描将角度方向的观测聚合为统一的空间语义表示；动态记忆细化，维持全局一致性；以及上下文记忆检索，在操作期间激活指令相关的空间线索。我们在五个具有挑战性的真实世界视野外操作任务上评估了SOMA，包括目标对象最初不可见的多步骤和双臂场景。实验结果表明，SOMA不仅提高了任务成功率，还诱导了在质量上不同的操作行为，包括更快的目标定位、减少的视点搜索以及在部分可观察性下接近一次性抓取。在RoboCasa GR1和SimplerEnv上的额外实验进一步验证了SOMA的记忆设计在传统完全可观察设置下的有效性。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在执行操作任务时，通常假设所有相关物体都在视野范围内。然而，在真实世界场景中，目标物体经常会超出相机的视野，导致模型无法完成任务或产生次优行为。现有方法缺乏对环境的持久记忆和推理能力，无法有效地处理视野外操作。

核心思路：SOMA的核心思路是为VLA模型配备一个空间记忆模块，该模块能够从多视角观测中构建环境的语义表示，并随着时间的推移进行更新和维护。通过空间记忆，模型可以推理视野外的物体，并规划相应的操作步骤。这种设计使得模型能够更好地适应真实世界场景中的部分可观察性。

技术框架：SOMA框架包含三个主要模块：1) 空间记忆构建（Spatial Memory Construction）：利用可移动的头部相机扫描环境，将不同角度的观测结果融合到统一的空间语义表示中。2) 动态记忆细化（Dynamic Memory Refinement）：随着时间的推移，不断更新和细化空间记忆，保持全局一致性。3) 上下文记忆检索（Contextual Memory Retrieval）：在执行操作任务时，根据指令激活相关的空间线索，指导模型的行为。

关键创新：SOMA的关键创新在于其空间记忆的设计，它允许VLA模型超越当前视觉视锥进行推理。与现有方法相比，SOMA能够处理视野外操作，并生成更鲁棒和高效的操作行为。此外，动态记忆细化模块能够保证空间记忆的全局一致性，提高模型的长期规划能力。

关键设计：空间记忆构建模块使用角度方向的观测数据，通过某种融合机制（具体融合方法未知）生成空间语义表示。动态记忆细化模块的具体实现方式未知，但其目标是保持全局一致性。上下文记忆检索模块根据指令激活相关的空间线索，具体激活机制未知。论文中没有明确提及损失函数和网络结构的细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SOMA在五个具有挑战性的真实世界视野外操作任务上显著提高了任务成功率。与基线方法相比，SOMA能够更快地定位目标物体，减少视点搜索次数，并在部分可观察性下实现接近一次性抓取。在RoboCasa GR1和SimplerEnv上的实验也验证了SOMA在传统完全可观察设置下的有效性。具体性能提升数据未知。

🎯 应用场景

SOMA框架可应用于各种需要视野外操作的机器人任务，例如家庭服务机器人、工业自动化机器人和搜索救援机器人。通过赋予机器人更强的空间推理能力，SOMA可以帮助它们更好地理解和操作周围环境，完成更复杂的任务。未来，SOMA有望推动机器人技术在真实世界场景中的广泛应用。

📄 摘要（原文）

We introduce SOMA, the Spatial Memory framework for Out-of-Vision Manipulation in Vision-Language-Action (VLA) models. Most existing VLAs implicitly assume that task-relevant objects are always visible, leading to brittle and reactive behaviors when targets fall outside the camera's field of view. SOMA addresses this limitation by equipping VLAs with a persistent spatial memory constructed from multi-view observations acquired via a movable head camera, enabling reasoning beyond the current visual frustum. The framework consists of three components: Spatial Memory Construction, which aggregates angular-wise observations into a unified spatial-semantic representation through scanning; Dynamic Memory Refinement, which maintains global consistency over time; and Contextual Memory Retrieval, which activates instruction-relevant spatial cues during manipulation. We evaluate SOMA on five challenging real-world out-of-vision manipulation tasks, including multi-step and dual-arm scenarios where target objects are initially invisible. Experimental results show that SOMA not only improves task success rates, but also induces qualitatively different manipulation behaviors, with faster target localization, reduced viewpoint search, and near one-shot grasping under partial observability. Additional experiments on RoboCasa GR1 and SimplerEnv further validate the effectiveness of SOMA's memory design under conventional fully observable settings. Code will be released soon.

Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理