ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation

作者: Jingjing Qian, Zeyuan He, Chen Shi, Lei Xiao, Li Jiang

分类: cs.CV, cs.RO

发布日期: 2026-04-15

💡 一句话要点

ESCAPE：结合情景空间记忆与自适应策略，解决长时程移动操作任务

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 长时程任务 移动操作 空间记忆 自适应策略 强化学习 ALFRED基准

📋 核心要点

现有方法在长时程具身任务中面临灾难性遗忘、空间不一致和执行策略僵化等挑战。
ESCAPE通过情景空间记忆模块和自适应执行策略，实现更鲁棒的感知、定位和灵活的动作执行。
在ALFRED基准测试中，ESCAPE显著提升了长时程任务的成功率和路径效率，尤其在无详细指导时。

📝 摘要（中文）

本文提出ESCAPE（情景空间记忆耦合自适应执行策略），旨在解决具身智能在复杂室内环境中导航和操作协调问题。针对长时程任务中存在的灾难性遗忘、空间不一致和执行僵化等问题，ESCAPE通过紧密耦合的感知-定位-执行工作流程运行。该方法包含时空融合建图模块，用于自回归地构建无深度信息的持久3D空间记忆；以及记忆驱动的目标定位模块，用于生成精确的交互掩码。自适应执行策略动态地协调主动全局导航和反应式局部操作，以抓住机会目标。在ALFRED基准测试中，ESCAPE在测试的可见和不可见环境中分别达到了65.09%和60.79%的成功率，取得了最先进的性能。通过减少冗余探索，ESCAPE在路径长度加权指标上取得了显著改进，即使在没有详细指导的长时程任务中也能保持稳健的性能（61.24%/56.04%）。

🔬 方法详解

问题定义：现有方法在长时程移动操作任务中，难以维持一致的空间表征，容易遗忘先前步骤的信息，并且执行策略通常是固定的，无法灵活应对环境变化，导致任务成功率降低，探索效率低下。

核心思路：ESCAPE的核心在于构建一个持久化的、无深度信息的3D空间记忆，并结合自适应执行策略，动态地调整全局导航和局部操作的权重。通过空间记忆来克服遗忘问题，通过自适应策略来提高任务的灵活性和效率。

技术框架：ESCAPE包含三个主要模块：1) 时空融合建图模块 (Spatio-Temporal Fusion Mapping)：自回归地构建3D空间记忆，融合时间信息以提高地图的持久性和准确性。2) 记忆驱动的目标定位模块 (Memory-Driven Target Grounding)：利用空间记忆生成精确的交互掩码，用于定位目标对象。3) 自适应执行策略 (Adaptive Execution Policy)：动态地协调全局导航和局部操作，根据当前环境和任务状态调整策略。

关键创新：ESCAPE的关键创新在于将情景空间记忆与自适应执行策略紧密结合。与传统方法相比，ESCAPE的空间记忆模块无需深度信息，更具鲁棒性；自适应执行策略能够根据环境动态调整导航和操作的权重，提高了任务的灵活性。

关键设计：时空融合建图模块采用自回归的方式更新空间记忆，利用历史信息来纠正当前帧的误差。自适应执行策略通过强化学习训练，学习在不同状态下选择合适的动作。具体的损失函数和网络结构细节在论文中进行了详细描述，但此处信息未知。

🖼️ 关键图片

📊 实验亮点

ESCAPE在ALFRED基准测试中取得了显著的性能提升，在测试的可见环境中成功率达到65.09%，在不可见环境中达到60.79%，超越了现有方法。即使在没有详细指导的长时程任务中，ESCAPE也能保持较高的成功率（61.24%/56.04%），证明了其鲁棒性和泛化能力。此外，ESCAPE还显著降低了冗余探索，提高了路径效率。

🎯 应用场景

ESCAPE技术可应用于家庭服务机器人、仓库自动化、搜索救援等领域。该研究有助于提升机器人在复杂、动态环境中执行长时程任务的能力，使其能够更好地理解环境、规划路径并与物体进行交互，从而实现更智能、更高效的自动化。

📄 摘要（原文）

Coordinating navigation and manipulation with robust performance is essential for embodied AI in complex indoor environments. However, as tasks extend over long horizons, existing methods often struggle due to catastrophic forgetting, spatial inconsistency, and rigid execution. To address these issues, we propose ESCAPE (Episodic Spatial Memory Coupled with an Adaptive Policy for Execution), operating through a tightly coupled perception-grounding-execution workflow. For robust perception, ESCAPE features a Spatio-Temporal Fusion Mapping module to autoregressively construct a depth-free, persistent 3D spatial memory, alongside a Memory-Driven Target Grounding module for precise interaction mask generation. To achieve flexible action, our Adaptive Execution Policy dynamically orchestrates proactive global navigation and reactive local manipulation to seize opportunistic targets. ESCAPE achieves state-of-the-art performance on the ALFRED benchmark, reaching 65.09% and 60.79% success rates in test seen and unseen environments with step-by-step instructions. By reducing redundant exploration, our ESCAPE attains substantial improvements in path-length-weighted metrics and maintains robust performance (61.24% / 56.04%) even without detailed guidance for long-horizon tasks.

ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理