MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation

作者: Dekang Qi, Shuang Zeng, Xinyuan Chang, Feng Xiong, Shichao Xie, Xiaolong Wu, Mu Xu

分类: cs.CV, cs.CL, cs.RO

发布日期: 2026-02-05

备注: 9 pages, 2 figures, 5 tables, conference

💡 一句话要点

提出MerNav框架，解决零样本物体目标导航中泛化性与成功率难以兼顾的问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 物体目标导航 零样本学习 具身智能 记忆网络 分层记忆 回顾机制

📋 核心要点

现有视觉语言导航方法难以兼顾成功率和泛化性，监督微调方法成功率高但泛化性差，免训练方法泛化性好但成功率低。
提出记忆-执行-回顾框架MerNav，通过分层记忆模块、执行模块和回顾模块，提升导航的成功率和泛化能力。
在四个数据集上的实验表明，MerNav在零样本物体目标导航任务中，显著提升了成功率，并在泛化性上超越了现有方法。

📝 摘要（中文）

视觉语言导航(VLN)是具身智能的基本能力之一，也是亟待解决的关键挑战。然而，现有方法在成功率(SR)和泛化性方面仍不尽如人意：监督微调(SFT)方法通常获得较高的SR，而免训练(TF)方法通常泛化性更好，但很难同时获得两者。为此，我们提出了一个记忆-执行-回顾框架。它由三个部分组成：用于提供信息支持的分层记忆模块、用于常规决策和行动的执行模块，以及用于处理异常情况和纠正行为的回顾模块。我们在物体目标导航任务上验证了该框架的有效性。在4个数据集上，我们的平均SR与TF和零样本(ZS)设置下的所有基线方法相比，分别实现了7%和5%的绝对改进。在最常用的HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上，ZS设置下的SR提高了8%和6%。此外，在MP3D和HM3D_OVON数据集上，我们的方法不仅优于所有TF方法，而且超过了所有SFT方法，在SR(5%和2%)和泛化性方面都取得了全面的领先。

🔬 方法详解

问题定义：论文旨在解决零样本物体目标导航(Zero-Shot Object Goal Navigation)任务中，现有方法难以同时保证高成功率和良好泛化性的问题。监督微调(SFT)的方法虽然能取得较高的成功率，但泛化能力较弱，难以适应新的环境和目标。免训练(TF)的方法虽然泛化性较好，但成功率往往较低。因此，如何在零样本条件下，提升物体目标导航的成功率和泛化能力是一个重要的挑战。

核心思路：论文的核心思路是模仿人类解决问题的过程，通过“记忆-执行-回顾”的循环来提升导航性能。记忆模块提供环境信息支持，执行模块负责常规决策和行动，回顾模块则用于处理异常情况并纠正行为。这种设计旨在使智能体能够更好地理解环境，做出更合理的决策，并在出现错误时及时纠正，从而提高成功率和泛化能力。

技术框架：MerNav框架主要包含三个模块：1) 分层记忆模块：用于存储和检索环境信息，为导航决策提供支持。具体实现细节未知。2) 执行模块：根据当前状态和记忆信息，做出导航决策并执行相应的动作。具体实现细节未知。3) 回顾模块：用于监控导航过程，检测异常情况，并根据情况调整导航策略。具体实现细节未知。这三个模块协同工作，形成一个闭环的导航系统。

关键创新：该论文的关键创新在于提出了“记忆-执行-回顾”的框架，将导航过程分解为三个相互协作的阶段，并针对每个阶段设计了相应的模块。这种框架能够更好地模拟人类的导航行为，从而提升导航的性能。与现有方法相比，MerNav框架更加注重对环境信息的利用和对导航过程的监控，从而能够更好地应对复杂和未知的环境。

关键设计：论文中没有详细说明各个模块的具体实现细节，例如分层记忆模块的具体结构、执行模块的决策算法、回顾模块的异常检测方法等。这些细节对于理解和复现该方法至关重要，但论文中并未提供足够的信息。关键的参数设置、损失函数、网络结构等技术细节也未知。

🖼️ 关键图片

📊 实验亮点

MerNav框架在四个数据集上进行了验证，结果表明其在零样本物体目标导航任务中取得了显著的性能提升。在HM3D_v0.1和HM3D_OVON数据集上，成功率分别提高了8%和6%。更重要的是，在MP3D和HM3D_OVON数据集上，MerNav不仅优于所有免训练方法，而且超过了所有监督微调方法，在成功率和泛化性方面都取得了全面的领先，成功率分别提高了5%和2%。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如，在家庭服务机器人中，可以利用该方法实现零样本物体目标导航，使其能够在未知的家庭环境中找到指定的物品。在自动驾驶领域，可以利用该方法提升车辆在复杂环境中的导航能力和安全性。在虚拟现实领域，可以利用该方法实现更真实的虚拟环境交互。

📄 摘要（原文）

Visual Language Navigation (VLN) is one of the fundamental capabilities for embodied intelligence and a critical challenge that urgently needs to be addressed. However, existing methods are still unsatisfactory in terms of both success rate (SR) and generalization: Supervised Fine-Tuning (SFT) approaches typically achieve higher SR, while Training-Free (TF) approaches often generalize better, but it is difficult to obtain both simultaneously. To this end, we propose a Memory-Execute-Review framework. It consists of three parts: a hierarchical memory module for providing information support, an execute module for routine decision-making and actions, and a review module for handling abnormal situations and correcting behavior. We validated the effectiveness of this framework on the Object Goal Navigation task. Across 4 datasets, our average SR achieved absolute improvements of 7% and 5% compared to all baseline methods under TF and Zero-Shot (ZS) settings, respectively. On the most commonly used HM3D_v0.1 and the more challenging open vocabulary dataset HM3D_OVON, the SR improved by 8% and 6%, under ZS settings. Furthermore, on the MP3D and HM3D_OVON datasets, our method not only outperformed all TF methods but also surpassed all SFT methods, achieving comprehensive leadership in both SR (5% and 2%) and generalization.

MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理