Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration

📄 arXiv: 2605.22814v1 📥 PDF

作者: Lily Goli, Justin Kerr, Daniele Reda, Alec Jacobson, Andrea Tagliasacchi, Angjoo Kanazawa

分类: cs.LG

发布日期: 2026-05-21

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于情景上下文和持久世界的3D探索方法,解决好奇心驱动探索中的局部循环问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D探索 好奇心驱动学习 强化学习 在线3D重建 情景上下文 机器人导航 持久世界模型

📋 核心要点

  1. 传统好奇心驱动的强化学习在复杂3D环境中易陷入局部循环,无法有效探索,原因是缺乏空间持久性和情景上下文。
  2. 论文提出一种结合在线3D重建和序列模型的框架,利用3D重建构建持久世界模型,序列模型维护情景上下文。
  3. 实验表明,该方法在HM3D上训练后,优于RL基线,并能零样本泛化到其他环境,且能有效适应下游任务。

📝 摘要(中文)

在稀疏奖励、长时程任务中,尤其是在3D环境中,探索是学习有用行为的先决条件。好奇心驱动的强化学习通过智能体对世界的预测模型与现实之间的不匹配来获得内在奖励,从而解决这个问题。然而,将这种内在动机转化为复杂、逼真的环境仍然很困难,因为智能体可能会陷入局部循环,并因重新访问被遗忘的状态而获得新的奖励。本文证明,这种失败源于缺乏空间持久性和情景上下文。有效的探索需要一个持久且不断更新的世界模型,以及一个维护情景轨迹历史以导航到新区域的智能体。我们通过在线3D重建作为世界的持久模型来实现这一点,而智能体策略被参数化为RGB观测序列模型以保持情景上下文。这种设计能够在训练期间进行有效的探索,同时允许智能体在部署时仅使用RGB帧进行导航。仅通过HM3D上的好奇心训练,我们的智能体优于基于RL的主动映射基线,并零样本泛化到Gibson和AI生成的世界。我们的端到端策略能够有效地适应下游任务,例如摘苹果和图像目标导航,优于从头开始训练的基线。

🔬 方法详解

问题定义:现有好奇心驱动的强化学习方法在复杂3D环境中进行探索时,容易陷入局部循环,重复访问已探索过的区域,导致探索效率低下。这是因为智能体缺乏对环境的持久记忆和对自身探索历史的感知,无法区分真正的未知区域和被遗忘的区域。现有方法难以有效地将内在动机转化为复杂、逼真的环境中的有效探索。

核心思路:论文的核心思路是为智能体提供一个持久的世界模型和一个情景上下文记忆。持久的世界模型通过在线3D重建实现,能够记住已探索过的空间,避免重复探索。情景上下文记忆通过序列模型实现,能够让智能体感知自身的探索历史,从而更好地规划探索路径。通过结合这两点,智能体可以更有效地探索未知区域。

技术框架:整体框架包含两个主要模块:持久世界模型和情景上下文策略。持久世界模型使用在线3D重建技术,将智能体观察到的RGB图像转换为3D点云,并不断更新点云地图。情景上下文策略使用序列模型(例如LSTM或Transformer)对智能体的RGB观测序列进行编码,得到一个包含情景信息的隐状态。该隐状态被用于指导智能体的动作选择,使其能够根据自身的探索历史选择更有可能发现新区域的动作。

关键创新:最重要的技术创新点在于将在线3D重建和序列模型相结合,分别用于构建持久世界模型和情景上下文记忆。与现有方法相比,该方法能够更有效地利用智能体的探索经验,避免陷入局部循环,从而提高探索效率。此外,该方法仅使用RGB图像作为输入,无需深度信息,更易于在实际场景中部署。

关键设计:在线3D重建模块使用TSDF(Truncated Signed Distance Function)表示3D环境,并使用RGBD-SLAM算法进行重建。序列模型使用LSTM网络,输入为RGB图像的特征向量,输出为动作的概率分布。损失函数包括好奇心奖励和辅助损失,好奇心奖励鼓励智能体探索未知区域,辅助损失用于提高序列模型的预测能力。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在HM3D数据集上训练后,优于基于RL的主动映射基线。更重要的是,该方法能够零样本泛化到Gibson和AI生成的世界,表明其具有良好的泛化能力。此外,该方法还能有效适应下游任务,例如摘苹果和图像目标导航,优于从头开始训练的基线。具体性能数据未知。

🎯 应用场景

该研究成果可应用于机器人自主导航、环境探索、自动驾驶等领域。通过赋予机器人更强的探索能力,可以使其在未知环境中自主学习和适应,完成各种复杂任务,例如灾难救援、考古勘探、智能家居等。此外,该方法还可以用于训练虚拟环境中的智能体,提高其在真实世界中的泛化能力。

📄 摘要(原文)

Exploration is a prerequisite for learning useful behaviors in sparse-reward, long-horizon tasks, particularly within 3D environments. Curiosity-driven reinforcement learning addresses this via intrinsic rewards derived from the mismatch between the agent's predictive model of the world and reality. However, translating this intrinsic motivation to complex, photorealistic environments remains difficult, as agents can become trapped in local loops and receive fresh rewards for revisiting forgotten states. In this work, we demonstrate that this failure stems from a lack of spatial persistence and episodic context. We show that effective curiosity requires a model of the world that is persistent and continuously updated, paired with an agent that maintains an episodic trajectory history to navigate toward novel regions. We achieve this using an online 3D reconstruction as a persistent model of the world, while the agent policy is parameterized as a sequence model over RGB observations to maintain episodic context. This design enables effective exploration during training while allowing the agent to navigate using solely RGB frames at deployment. Trained purely via curiosity on HM3D, our agent outperforms RL-based active mapping baselines and generalizes zero-shot to Gibson and AI-generated worlds. Our end-to-end policy enables efficient adaptation to downstream tasks, such as apple picking and image-goal navigation, outperforming from-scratch baselines. Please see video results at https://recuriosity.github.io/.