MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation

📄 arXiv: 2602.05467v1 📥 PDF

作者: Dekang Qi, Shuang Zeng, Xinyuan Chang, Feng Xiong, Shichao Xie, Xiaolong Wu, Mu Xu

分类: cs.CV, cs.CL, cs.RO

发布日期: 2026-02-05

备注: 9 pages, 2 figures, 5 tables, conference


💡 一句话要点

提出MerNav框架,解决零样本物体目标导航中泛化性与成功率难以兼顾的问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 物体目标导航 零样本学习 具身智能 记忆网络 分层记忆 回顾机制

📋 核心要点

  1. 现有视觉语言导航方法难以兼顾成功率和泛化性,监督微调方法成功率高但泛化性差,免训练方法泛化性好但成功率低。
  2. 提出记忆-执行-回顾框架MerNav,通过分层记忆模块、执行模块和回顾模块,提升导航的成功率和泛化能力。
  3. 在四个数据集上的实验表明,MerNav在零样本物体目标导航任务中,显著提升了成功率,并在泛化性上超越了现有方法。

📝 摘要(中文)

视觉语言导航(VLN)是具身智能的基本能力之一,也是亟待解决的关键挑战。然而,现有方法在成功率(SR)和泛化性方面仍不尽如人意:监督微调(SFT)方法通常获得较高的SR,而免训练(TF)方法通常泛化性更好,但很难同时获得两者。为此,我们提出了一个记忆-执行-回顾框架。它由三个部分组成:用于提供信息支持的分层记忆模块、用于常规决策和行动的执行模块,以及用于处理异常情况和纠正行为的回顾模块。我们在物体目标导航任务上验证了该框架的有效性。在4个数据集上,我们的平均SR与TF和零样本(ZS)设置下的所有基线方法相比,分别实现了7%和5%的绝对改进。在最常用的HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上,ZS设置下的SR提高了8%和6%。此外,在MP3D和HM3D_OVON数据集上,我们的方法不仅优于所有TF方法,而且超过了所有SFT方法,在SR(5%和2%)和泛化性方面都取得了全面的领先。

🔬 方法详解

问题定义:论文旨在解决零样本物体目标导航(Zero-Shot Object Goal Navigation)任务中,现有方法难以同时保证高成功率和良好泛化性的问题。监督微调(SFT)的方法虽然能取得较高的成功率,但泛化能力较弱,难以适应新的环境和目标。免训练(TF)的方法虽然泛化性较好,但成功率往往较低。因此,如何在零样本条件下,提升物体目标导航的成功率和泛化能力是一个重要的挑战。

核心思路:论文的核心思路是模仿人类解决问题的过程,通过“记忆-执行-回顾”的循环来提升导航性能。记忆模块提供环境信息支持,执行模块负责常规决策和行动,回顾模块则用于处理异常情况并纠正行为。这种设计旨在使智能体能够更好地理解环境,做出更合理的决策,并在出现错误时及时纠正,从而提高成功率和泛化能力。

技术框架:MerNav框架主要包含三个模块:1) 分层记忆模块:用于存储和检索环境信息,为导航决策提供支持。具体实现细节未知。2) 执行模块:根据当前状态和记忆信息,做出导航决策并执行相应的动作。具体实现细节未知。3) 回顾模块:用于监控导航过程,检测异常情况,并根据情况调整导航策略。具体实现细节未知。这三个模块协同工作,形成一个闭环的导航系统。

关键创新:该论文的关键创新在于提出了“记忆-执行-回顾”的框架,将导航过程分解为三个相互协作的阶段,并针对每个阶段设计了相应的模块。这种框架能够更好地模拟人类的导航行为,从而提升导航的性能。与现有方法相比,MerNav框架更加注重对环境信息的利用和对导航过程的监控,从而能够更好地应对复杂和未知的环境。

关键设计:论文中没有详细说明各个模块的具体实现细节,例如分层记忆模块的具体结构、执行模块的决策算法、回顾模块的异常检测方法等。这些细节对于理解和复现该方法至关重要,但论文中并未提供足够的信息。关键的参数设置、损失函数、网络结构等技术细节也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MerNav框架在四个数据集上进行了验证,结果表明其在零样本物体目标导航任务中取得了显著的性能提升。在HM3D_v0.1和HM3D_OVON数据集上,成功率分别提高了8%和6%。更重要的是,在MP3D和HM3D_OVON数据集上,MerNav不仅优于所有免训练方法,而且超过了所有监督微调方法,在成功率和泛化性方面都取得了全面的领先,成功率分别提高了5%和2%。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,在家庭服务机器人中,可以利用该方法实现零样本物体目标导航,使其能够在未知的家庭环境中找到指定的物品。在自动驾驶领域,可以利用该方法提升车辆在复杂环境中的导航能力和安全性。在虚拟现实领域,可以利用该方法实现更真实的虚拟环境交互。

📄 摘要(原文)

Visual Language Navigation (VLN) is one of the fundamental capabilities for embodied intelligence and a critical challenge that urgently needs to be addressed. However, existing methods are still unsatisfactory in terms of both success rate (SR) and generalization: Supervised Fine-Tuning (SFT) approaches typically achieve higher SR, while Training-Free (TF) approaches often generalize better, but it is difficult to obtain both simultaneously. To this end, we propose a Memory-Execute-Review framework. It consists of three parts: a hierarchical memory module for providing information support, an execute module for routine decision-making and actions, and a review module for handling abnormal situations and correcting behavior. We validated the effectiveness of this framework on the Object Goal Navigation task. Across 4 datasets, our average SR achieved absolute improvements of 7% and 5% compared to all baseline methods under TF and Zero-Shot (ZS) settings, respectively. On the most commonly used HM3D_v0.1 and the more challenging open vocabulary dataset HM3D_OVON, the SR improved by 8% and 6%, under ZS settings. Furthermore, on the MP3D and HM3D_OVON datasets, our method not only outperformed all TF methods but also surpassed all SFT methods, achieving comprehensive leadership in both SR (5% and 2%) and generalization.