Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation
作者: Yifei Dong, Fengyi Wu, Guangyu Chen, Zhi-Qi Cheng, Qiyu Hu, Yuxuan Zhou, Jingdong Sun, Jun-Yan He, Qi Dai, Alexander G Hauptmann
分类: cs.AI, cs.CV, cs.RO
发布日期: 2025-10-09
备注: 18 pages, 11 figures, code: https://github.com/F1y1113/UniWM
💡 一句话要点
提出UniWM,统一视觉导航中的世界建模与规划,显著提升导航性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉导航 世界模型 具身智能 多模态学习 自回归模型 分层记忆 统一架构
📋 核心要点
- 现有视觉导航方法依赖模块化架构,分离规划与世界建模,导致状态-动作不对齐,泛化性受限。
- UniWM提出统一的、内存增强的世界模型,在多模态自回归骨干网络中集成视觉预测与规划。
- 实验表明,UniWM在多个基准测试中显著提升导航成功率,并展现出良好的零样本泛化能力。
📝 摘要(中文)
本文提出了一种统一的世界模型UniWM,用于增强具身智能体在视觉导航中的规划和预测能力。与当前将导航规划与视觉世界建模分离的模块化架构不同,UniWM采用统一的、内存增强的多模态自回归骨干网络,将以自我为中心的视觉预测与规划集成在一起。UniWM显式地将动作决策建立在视觉想象的结果之上,确保预测和控制之间的紧密对齐。分层记忆机制进一步整合了详细的短期感知线索和长期轨迹上下文,从而实现对扩展视野的稳定、连贯的推理。在四个具有挑战性的基准测试(Go Stanford、ReCon、SCAND、HuRoN)上的大量实验表明,UniWM显著提高了导航成功率(高达30%),并显著减少了轨迹误差。UniWM在未见过的TartanDrive数据集上表现出令人印象深刻的零样本泛化能力。这些结果表明,UniWM是朝着统一的、由想象驱动的具身导航迈出的重要一步。
🔬 方法详解
问题定义:现有视觉导航方法通常采用模块化的架构,将导航规划和视觉世界建模分离。这种分离导致状态-动作的不对齐,使得智能体难以在新的或动态的环境中进行有效的导航。现有方法难以同时兼顾短期感知细节和长期轨迹信息,限制了其在复杂环境中的表现。
核心思路:UniWM的核心思路是将视觉预测和规划整合到一个统一的框架中,通过显式地将动作决策建立在视觉想象的结果之上,实现预测和控制之间的紧密对齐。利用分层记忆机制,整合短期感知线索和长期轨迹上下文,从而实现对扩展视野的稳定推理。
技术框架:UniWM采用一个统一的多模态自回归骨干网络,该网络同时处理视觉输入、动作指令和记忆信息。该网络包含一个视觉编码器,用于提取视觉特征;一个动作嵌入层,用于表示动作指令;以及一个分层记忆模块,用于存储和检索短期和长期信息。整个框架通过自回归的方式进行训练,即根据当前状态、动作和记忆预测下一个状态。
关键创新:UniWM的关键创新在于其统一的架构,它将视觉预测和规划整合到一个单一的模型中。与传统的模块化方法相比,UniWM能够更好地捕捉状态-动作之间的依赖关系,从而提高导航性能。此外,分层记忆机制能够有效地整合短期和长期信息,使得智能体能够更好地理解环境并做出更明智的决策。
关键设计:UniWM的分层记忆模块包含一个短期记忆和一个长期记忆。短期记忆用于存储最近的视觉特征和动作指令,而长期记忆用于存储更长时间内的轨迹信息。短期记忆采用循环神经网络(RNN)实现,而长期记忆采用外部记忆网络实现。损失函数包括一个视觉预测损失和一个动作预测损失,用于训练模型预测未来的视觉状态和动作指令。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
UniWM在Go Stanford、ReCon、SCAND和HuRoN四个基准测试中,导航成功率提升高达30%,轨迹误差显著降低。此外,UniWM在未见过的TartanDrive数据集上表现出良好的零样本泛化能力,表明其具有较强的环境适应性。
🎯 应用场景
UniWM的研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过提升智能体在复杂环境中的导航能力,可以实现更智能化的服务机器人、更安全的自动驾驶系统以及更逼真的虚拟现实体验。该研究对于推动具身智能的发展具有重要意义。
📄 摘要(原文)
Enabling embodied agents to effectively imagine future states is critical for robust and generalizable visual navigation. Current state-of-the-art approaches, however, adopt modular architectures that separate navigation planning from visual world modeling, leading to state-action misalignment and limited adaptability in novel or dynamic scenarios. To overcome this fundamental limitation, we propose UniWM, a unified, memory-augmented world model integrating egocentric visual foresight and planning within a single multimodal autoregressive backbone. Unlike modular frameworks, UniWM explicitly grounds action decisions in visually imagined outcomes, ensuring tight alignment between prediction and control. A hierarchical memory mechanism further integrates detailed short-term perceptual cues with longer-term trajectory context, enabling stable, coherent reasoning over extended horizons. Extensive experiments across four challenging benchmarks (Go Stanford, ReCon, SCAND, HuRoN) demonstrate that UniWM substantially improves navigation success rates by up to 30%, significantly reduces trajectory errors compared to strong baselines, and exhibits impressive zero-shot generalization on the unseen TartanDrive dataset. These results highlight UniWM as a principled step toward unified, imagination-driven embodied navigation.