HiMemVLN: Enhancing Reliability of Open-Source Zero-Shot Vision-and-Language Navigation with Hierarchical Memory System

作者: Kailin Lyu, Kangyi Wu, Pengna Li, Xiuyu Hu, Qingyi Si, Cui Miao, Ning Yang, Zihang Wang, Long Xiao, Lianyu Hu, Jingyuan Sun, Ce Hao

分类: cs.CV, cs.RO

发布日期: 2026-03-16

备注: 9 pages, 7 figures

🔗 代码/项目: GITHUB

💡 一句话要点

HiMemVLN：通过分层记忆系统增强开源零样本视觉语言导航的可靠性

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 零样本学习 分层记忆系统 开源LLM 机器人导航

📋 核心要点

现有零样本VLN方法依赖闭源LLM，成本高且存在数据泄露风险，而开源LLM性能远低于闭源模型。
论文提出HiMemVLN，通过分层记忆系统增强视觉感知回忆和长期定位，缓解导航过程中的“失忆症”问题。
实验结果表明，HiMemVLN在模拟和真实环境中均显著优于现有开源方法，性能提升接近两倍。

📝 摘要（中文）

基于LLM的智能体在视觉语言导航（VLN）任务中表现出令人印象深刻的零样本性能。然而，大多数零样本方法主要依赖于闭源LLM作为导航器，这面临着高token成本和潜在数据泄露风险等挑战。最近的一些工作试图通过使用开源LLM结合时空CoT框架来解决这个问题，但与闭源模型相比，它们仍然相差甚远。在这项工作中，我们通过对导航过程的详细分析，发现了一个关键问题，即导航失忆症。这个问题导致导航失败，并扩大了开源方法和闭源方法之间的差距。为了解决这个问题，我们提出了HiMemVLN，它将分层记忆系统集成到多模态大型模型中，以增强视觉感知回忆和长期定位，从而缓解失忆症问题并提高智能体的导航性能。在模拟和真实环境中的大量实验表明，HiMemVLN的性能几乎是开源最先进方法的两倍。代码已在https://github.com/lvkailin0118/HiMemVLN上提供。

🔬 方法详解

问题定义：现有基于开源LLM的零样本视觉语言导航方法，在长程导航中容易出现“导航失忆症”，即无法有效回忆历史观测信息，导致定位不准和导航失败。现有方法难以有效利用历史信息，导致性能与闭源模型存在较大差距。

核心思路：通过引入分层记忆系统，增强模型对历史视觉信息的记忆和检索能力。该系统旨在模拟人类的记忆机制，通过分层结构存储和提取信息，从而克服导航过程中的“失忆症”问题，提高导航的可靠性和准确性。

技术框架：HiMemVLN 包含视觉编码器、语言编码器、分层记忆模块和导航决策模块。视觉编码器提取当前观测图像的特征，语言编码器处理导航指令。分层记忆模块负责存储和检索历史视觉信息。导航决策模块结合当前观测和历史记忆，生成导航动作。整体流程为：输入指令和当前观测 -> 视觉和语言编码 -> 分层记忆更新 -> 导航决策 -> 执行动作。

关键创新：核心创新在于提出的分层记忆系统，它不同于传统的单一记忆结构，能够更有效地存储和检索长期导航过程中的视觉信息。这种分层结构允许模型关注不同时间尺度上的信息，从而更好地理解导航环境和自身的定位。

关键设计：分层记忆系统包含短期记忆和长期记忆两个层级。短期记忆存储最近的观测信息，长期记忆存储更早的历史信息。使用注意力机制来选择性地从短期和长期记忆中检索相关信息。损失函数包括导航损失和记忆一致性损失，用于优化导航性能和记忆模块的有效性。具体参数设置和网络结构细节未知。

🖼️ 关键图片

📊 实验亮点

HiMemVLN 在模拟和真实环境中的实验结果表明，其性能显著优于现有的开源零样本 VLN 方法，性能提升接近两倍。这表明分层记忆系统能够有效缓解导航失忆症问题，提高导航的可靠性和准确性。具体性能指标和对比基线未知。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过提升机器人在复杂环境中的导航能力，可以实现更智能化的服务机器人、更安全的自动驾驶系统以及更逼真的虚拟现实体验。该方法在开源LLM上的成功应用，降低了VLN技术的应用门槛，促进了相关技术的普及。

📄 摘要（原文）

LLM-based agents have demonstrated impressive zero-shot performance in vision-language navigation (VLN) tasks. However, most zero-shot methods primarily rely on closed-source LLMs as navigators, which face challenges related to high token costs and potential data leakage risks. Recent efforts have attempted to address this by using open-source LLMs combined with a spatiotemporal CoT framework, but they still fall far short compared to closed-source models. In this work, we identify a critical issue, Navigation Amnesia, through a detailed analysis of the navigation process. This issue leads to navigation failures and amplifies the gap between open-source and closed-source methods. To address this, we propose HiMemVLN, which incorporates a Hierarchical Memory System into a multimodal large model to enhance visual perception recall and long-term localization, mitigating the amnesia issue and improving the agent's navigation performance. Extensive experiments in both simulated and real-world environments demonstrate that HiMemVLN achieves nearly twice the performance of the open-source state-of-the-art method. The code is available at https://github.com/lvkailin0118/HiMemVLN.

HiMemVLN: Enhancing Reliability of Open-Source Zero-Shot Vision-and-Language Navigation with Hierarchical Memory System

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理