Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation
作者: Yifei Dong, Fengyi Wu, Guangyu Chen, Zhi-Qi Cheng, Qiyu Hu, Yuxuan Zhou, Jingdong Sun, Jun-Yan He, Qi Dai, Alexander G Hauptmann
分类: cs.AI, cs.CV, cs.RO
发布日期: 2025-10-09
备注: 18 pages, 11 figures, code: https://github.com/F1y1113/UniWM
💡 一句话要点
UniWM:统一的、记忆增强的世界模型,用于视觉导航中的规划与预测
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉导航 世界模型 具身智能 自回归模型 记忆增强 多模态学习 强化学习
📋 核心要点
- 现有视觉导航方法采用模块化架构,分离了导航规划和视觉世界建模,导致状态-动作不对齐,限制了在新场景或动态场景中的适应性。
- UniWM通过统一的多模态自回归骨干网络,整合了以自我为中心的视觉预测和规划,显式地将动作决策建立在视觉想象的结果之上,实现预测和控制的紧密对齐。
- 实验结果表明,UniWM在多个基准测试中显著提高了导航成功率,降低了轨迹误差,并在未见数据集上表现出良好的零样本泛化能力。
📝 摘要(中文)
为了使具身智能体能够有效地预测未来状态,从而实现鲁棒和泛化的视觉导航,本文提出了UniWM,一种统一的、记忆增强的世界模型。该模型将以自我为中心的视觉预测和规划集成到一个多模态自回归骨干网络中。与分离导航规划和视觉世界建模的模块化架构不同,UniWM明确地将动作决策建立在视觉想象的结果之上,确保预测和控制之间的紧密对齐。分层记忆机制进一步整合了详细的短期感知线索和长期轨迹上下文,从而实现对扩展视野的稳定、连贯的推理。在四个具有挑战性的基准测试(Go Stanford、ReCon、SCAND、HuRoN)上进行的大量实验表明,UniWM显著提高了导航成功率(高达30%),并显著减少了轨迹误差。UniWM在未见过的TartanDrive数据集上表现出令人印象深刻的零样本泛化能力。这些结果表明,UniWM是朝着统一的、由想象驱动的具身导航迈出的重要一步。
🔬 方法详解
问题定义:现有视觉导航方法通常采用模块化架构,将导航规划和视觉世界建模分离。这种分离导致状态-动作不对齐,即智能体的动作决策与它所预测的视觉结果之间缺乏直接联系。这限制了智能体在新的或动态的环境中进行有效导航的能力,因为它们无法准确地预测其行为的后果。现有方法的另一个痛点是缺乏长期记忆,难以整合短期感知信息和长期轨迹上下文,导致推理不稳定。
核心思路:UniWM的核心思路是将视觉预测和规划整合到一个统一的框架中,通过多模态自回归模型直接学习状态、动作和视觉信息之间的关系。通过显式地将动作决策建立在视觉想象的结果之上,UniWM确保了预测和控制之间的紧密对齐。此外,UniWM引入了一种分层记忆机制,用于整合短期感知线索和长期轨迹上下文,从而实现对扩展视野的稳定、连贯的推理。这样设计的目的是克服模块化架构的局限性,提高智能体在复杂环境中的导航能力。
技术框架:UniWM的整体架构是一个统一的多模态自回归模型,它接收当前状态(包括视觉输入和历史轨迹)、动作作为输入,并预测下一个状态的视觉表示。该模型包含以下主要模块:1) 视觉编码器:用于将原始视觉输入转换为紧凑的视觉特征表示。2) 动作编码器:用于编码智能体的动作。3) 记忆模块:包含分层记忆结构,用于存储和检索短期感知信息和长期轨迹上下文。4) 自回归解码器:基于视觉特征、动作编码和记忆信息,预测下一个状态的视觉表示。整个框架通过端到端的方式进行训练,以最小化预测视觉表示与真实视觉表示之间的差异。
关键创新:UniWM最重要的技术创新点在于其统一的架构,它将视觉预测和规划整合到一个单一的模型中。与现有方法中分离的模块不同,UniWM显式地学习状态、动作和视觉信息之间的联合分布,从而实现更紧密的预测和控制对齐。此外,分层记忆机制也是一个关键创新,它允许模型有效地整合短期感知信息和长期轨迹上下文,从而提高推理的稳定性和连贯性。这种统一的架构和分层记忆机制使得UniWM能够更好地适应新的和动态的环境。
关键设计:UniWM的关键设计包括:1) 多模态自回归模型:采用Transformer架构作为自回归解码器,用于预测下一个状态的视觉表示。2) 分层记忆机制:使用两个级别的记忆模块,分别存储短期感知信息和长期轨迹上下文。短期记忆模块使用滑动窗口机制,长期记忆模块使用基于注意力的检索机制。3) 损失函数:使用L2损失函数来衡量预测视觉表示与真实视觉表示之间的差异。4) 训练策略:采用课程学习策略,逐步增加训练环境的复杂性,以提高模型的泛化能力。
📊 实验亮点
UniWM在四个具有挑战性的视觉导航基准测试(Go Stanford、ReCon、SCAND、HuRoN)上取得了显著的性能提升。与强大的基线方法相比,UniWM的导航成功率提高了高达30%,轨迹误差显著降低。更重要的是,UniWM在未见过的TartanDrive数据集上表现出令人印象深刻的零样本泛化能力,表明其具有良好的泛化性和鲁棒性。这些实验结果充分证明了UniWM在视觉导航任务中的有效性。
🎯 应用场景
UniWM的研究成果可应用于各种需要自主导航的机器人应用中,例如家庭服务机器人、自动驾驶汽车、无人机巡检等。通过提高机器人在复杂环境中的导航能力,可以降低人工干预的需求,提高工作效率和安全性。此外,该研究对于开发更智能、更具适应性的具身智能体具有重要意义,推动人工智能技术在现实世界中的应用。
📄 摘要(原文)
Enabling embodied agents to effectively imagine future states is critical for robust and generalizable visual navigation. Current state-of-the-art approaches, however, adopt modular architectures that separate navigation planning from visual world modeling, leading to state-action misalignment and limited adaptability in novel or dynamic scenarios. To overcome this fundamental limitation, we propose UniWM, a unified, memory-augmented world model integrating egocentric visual foresight and planning within a single multimodal autoregressive backbone. Unlike modular frameworks, UniWM explicitly grounds action decisions in visually imagined outcomes, ensuring tight alignment between prediction and control. A hierarchical memory mechanism further integrates detailed short-term perceptual cues with longer-term trajectory context, enabling stable, coherent reasoning over extended horizons. Extensive experiments across four challenging benchmarks (Go Stanford, ReCon, SCAND, HuRoN) demonstrate that UniWM substantially improves navigation success rates by up to 30%, significantly reduces trajectory errors compared to strong baselines, and exhibits impressive zero-shot generalization on the unseen TartanDrive dataset. These results highlight UniWM as a principled step toward unified, imagination-driven embodied navigation.