3D-Anchored Lookahead Planning for Persistent Robotic Scene Memory via World-Model-Based MCTS

📄 arXiv: 2604.11302v1 📥 PDF

作者: Bronislav Sidik, Dror Mizrahi

分类: cs.RO, cs.AI

发布日期: 2026-04-13

备注: 5 pages, 1 figure, 1 table


💡 一句话要点

提出基于世界模型的3D锚定前瞻规划,用于机器人持久场景记忆

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 蒙特卡洛树搜索 世界模型 空间记忆 前瞻规划

📋 核心要点

  1. 现有反应式策略依赖当前视觉信息,无法处理遮挡或需要记忆的任务,限制了机器人操作的复杂性。
  2. 3D-ALP通过维护持久的相机到世界坐标系锚点,结合MCTS和3D世界模型,实现对不可见物体的准确重规划。
  3. 实验表明,3D-ALP在需要空间记忆的抓取任务中显著优于反应式基线,验证了树搜索空间记忆和更深层前瞻规划的有效性。

📝 摘要(中文)

本文提出了一种名为3D锚定前瞻规划(3D-ALP)的机器人操作系统2推理引擎,该引擎结合了蒙特卡洛树搜索(MCTS)和一个3D一致的世界模型作为rollout oracle。与仅从当前相机帧评估动作的反应式策略不同,3D-ALP维护一个持久的相机到世界(c2w)锚点,该锚点在遮挡情况下仍然有效,从而能够准确地重新规划到不再直接可观察到的对象位置。在一个需要空间记忆的5步顺序抓取任务(实验E3)中,3D-ALP在需要记忆的步骤上的成功率为0.650±0.109,而贪婪反应式基线的成功率为0.006±0.008(Δ=+0.645),第5步的成功率达到0.822,而贪婪算法为0.000。一项消融研究(30个episode,3个种子)表明,树搜索空间记忆是主要的驱动因素(+0.533,占增益的82%),更深层次的前瞻规划也带来额外的好处(+0.111,占17%)。我们还识别并解决了将UCT-MCTS(应用于树的置信上限[10])应用于连续机器人操作中的四个结构性失效模式。

🔬 方法详解

问题定义:现有机器人操作方法,特别是反应式策略,在处理需要空间记忆或存在遮挡的复杂任务时表现不佳。它们通常依赖于当前相机帧的信息,无法记住或推断被遮挡物体的状态和位置,导致任务失败。因此,需要一种能够维持场景记忆并进行有效规划的方法。

核心思路:3D-ALP的核心思路是利用一个3D一致的世界模型来增强机器人的空间推理能力。通过维护一个持久的相机到世界坐标系的锚点(c2w anchor),即使物体被遮挡,机器人也能记住其位置。结合蒙特卡洛树搜索(MCTS),该方法能够进行前瞻规划,从而找到最优的动作序列。

技术框架:3D-ALP系统包含以下主要模块:1) 3D世界模型:用于表示和更新场景的3D信息。2) 相机到世界坐标系锚点(c2w anchor):用于维持场景的持久记忆。3) 蒙特卡洛树搜索(MCTS):用于在动作空间中进行搜索和规划。4) Rollout Oracle:使用3D世界模型评估动作序列的质量。整个流程如下:首先,机器人获取当前场景的视觉信息,并更新3D世界模型。然后,利用MCTS在动作空间中进行搜索,每个节点代表一个状态,边代表一个动作。Rollout Oracle评估每个动作序列的质量,并更新MCTS树。最后,选择最优的动作执行。

关键创新:该方法最重要的创新点在于将3D一致的世界模型与MCTS相结合,并引入了持久的相机到世界坐标系锚点。这使得机器人能够在存在遮挡或需要空间记忆的情况下进行有效的规划。与传统的反应式策略相比,3D-ALP能够更好地处理复杂的操作任务。

关键设计:在MCTS的实现中,论文解决了四个结构性失效模式。具体的技术细节包括:1) 如何有效地利用3D世界模型进行rollout。2) 如何维护和更新相机到世界坐标系锚点。3) 如何设计奖励函数来指导MCTS的搜索。4) 如何处理连续动作空间中的搜索问题。此外,论文还进行了消融研究,以评估不同组件对性能的影响。

📊 实验亮点

实验结果表明,3D-ALP在需要空间记忆的5步顺序抓取任务中显著优于贪婪反应式基线。在需要记忆的步骤上,3D-ALP的成功率为0.650±0.109,而贪婪反应式基线的成功率仅为0.006±0.008(Δ=+0.645)。第5步的成功率达到0.822,而贪婪算法为0.000。消融研究表明,树搜索空间记忆是主要的性能提升因素(+0.533,占增益的82%),更深层次的前瞻规划也带来额外的好处(+0.111,占17%)。

🎯 应用场景

3D-ALP具有广泛的应用前景,例如在复杂的装配任务、家庭服务机器人、以及需要长时间操作的场景中。该方法能够提高机器人在复杂环境中的鲁棒性和效率,使其能够更好地完成各种任务。未来,该技术可以进一步扩展到更复杂的场景,例如多机器人协作和动态环境。

📄 摘要(原文)

We present 3D-Anchored Lookahead Planning (3D-ALP), a System 2 reasoning engine for robotic manipulation that combines Monte Carlo Tree Search (MCTS) with a 3D-consistent world model as the rollout oracle. Unlike reactive policies that evaluate actions from the current camera frame only, 3D-ALP maintains a persistent camera-to-world (c2w) anchor that survives occlusion, enabling accurate replanning to object positions that are no longer directly observable. On a 5-step sequential reach task requiring spatial memory (Experiment E3), 3D-ALP achieves 0.650 0.109 success rate on memory-required steps versus 0.006 0.008 for a greedy reactive baseline (Δ=+0.645), while step 5 success reaches 0.822 against 0.000 for greedy. An ablation study (30 episodes, 3 seeds) isolates tree search spatial memory as the primary driver (+0.533, 82% of gain) with additional benefit from deeper lookahead (+0.111, 17%). We also identify and resolve four structural failure modes in applying UCT-MCTS (Upper Confidence Bounds applied to Trees [10]) to continuous robotic manipulation.