Three-Step Nav: A Hierarchical Global-Local Planner for Zero-Shot Vision-and-Language Navigation

作者: Wanrong Zheng, Yunhao Ge, Laurent Itti

分类: cs.CV, cs.RO

发布日期: 2026-04-29

备注: Accepted to AISTATS 2026. Code: https://github.com/ZoeyZheng0/3-step-Nav

期刊: Proceedings of the 29th International Conference on Artificial Intelligence and Statistics (AISTATS), 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出Three-Step Nav，解决零样本视觉语言导航中的漂移和早停问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 零样本学习 多模态学习 大型语言模型 机器人导航

📋 核心要点

现有基于MLLM的零样本VLN智能体易偏离航向和过早停止，导致导航成功率低。
Three-Step Nav通过“向前看”、“现在看”和“向后看”三步协议，实现全局规划、局部对齐和轨迹纠正。
该方法无需微调，易于集成到现有VLN流程中，并在R2R-CE和RxR-CE数据集上取得SOTA性能。

📝 摘要（中文）

本文提出了一种名为Three-Step Nav的分层全局-局部规划器，旨在提升基于多模态大型语言模型(MLLM)的零样本视觉语言导航(VLN)性能。现有的VLN智能体在未知环境中进行视觉导航时，容易出现偏离航向、过早停止以及整体成功率低的问题。Three-Step Nav通过三步观察协议来解决这些问题：首先，“向前看”提取全局地标并勾勒粗略的计划；然后，“现在看”将当前视觉观察与下一个子目标对齐，以进行细粒度指导；最后，“向后看”审核整个轨迹，以纠正累积的漂移，然后再停止。该规划器无需梯度更新或特定于任务的微调，可以最小的开销嵌入到现有的VLN流程中。Three-Step Nav在R2R-CE和RxR-CE数据集上实现了最先进的零样本性能。

🔬 方法详解

问题定义：现有的基于多模态大型语言模型（MLLM）的零样本视觉语言导航（VLN）方法，在复杂环境中容易出现漂移、早停等问题，导致导航成功率较低。这些方法通常依赖于单步的视觉观察和语言指令，缺乏对全局环境的理解和对历史轨迹的纠正机制。

核心思路：Three-Step Nav的核心思路是引入一个分层的全局-局部规划器，通过三个步骤来模拟人类导航的行为：首先，通过“向前看”来获取全局信息，制定粗略的导航计划；然后，通过“现在看”将当前视觉信息与局部子目标对齐，进行精细的导航控制；最后，通过“向后看”来回顾整个导航轨迹，纠正累积的误差。

技术框架：Three-Step Nav的整体框架包含三个主要阶段：1) 全局规划阶段（Look Forward）：利用MLLM分析当前视角下的全局地标，生成一个粗略的导航计划。2) 局部导航阶段（Look Now）：将当前视觉观察与全局计划中的下一个子目标对齐，利用MLLM生成细粒度的导航指令。3) 轨迹纠正阶段（Look Backward）：回顾整个导航轨迹，利用MLLM检测并纠正累积的漂移误差。这三个阶段循环执行，直到到达目标位置。

关键创新：该方法最重要的创新点在于提出了一个三步观察协议，将全局规划、局部导航和轨迹纠正三个环节有机地结合起来，从而有效地解决了零样本VLN中的漂移和早停问题。与现有方法相比，Three-Step Nav更加注重对全局环境的理解和对历史轨迹的纠正，从而提高了导航的鲁棒性和准确性。

关键设计：Three-Step Nav的关键设计在于如何有效地利用MLLM来实现三个观察步骤。具体来说，在“向前看”阶段，需要设计合适的prompt来引导MLLM提取全局地标信息；在“现在看”阶段，需要设计合适的prompt来引导MLLM生成细粒度的导航指令；在“向后看”阶段，需要设计合适的prompt来引导MLLM检测并纠正漂移误差。此外，如何平衡三个阶段的计算资源也是一个重要的设计考虑。

🖼️ 关键图片

📊 实验亮点

Three-Step Nav在R2R-CE和RxR-CE数据集上取得了显著的性能提升，实现了最先进的零样本性能。具体来说，在R2R-CE数据集上，该方法相对于现有最佳方法取得了X%的相对提升（具体数值未知）。在RxR-CE数据集上，该方法也取得了Y%的相对提升（具体数值未知）。这些结果表明，Three-Step Nav能够有效地解决零样本VLN中的漂移和早停问题。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如，可以用于开发能够在复杂室内环境中自主导航的机器人，或者用于构建更加逼真的虚拟现实导航体验。此外，该方法还可以扩展到其他需要视觉和语言理解的任务中，例如智能家居控制、人机交互等。

📄 摘要（原文）

Breakthrough progress in vision-based navigation through unknown environments has been achieved by using multimodal large language models (MLLMs). These models can plan a sequence of motions by evaluating the current view at each time step against the task and goal given to the agent. However, current zero-shot Vision-and-Language Navigation (VLN) agents powered by MLLMs still tend to drift off course, halt prematurely, and achieve low overall success rates. We propose Three-Step Nav to counteract these failures with a three-view protocol: First, "look forward" to extract global landmarks and sketch a coarse plan. Then, "look now" to align the current visual observation with the next sub-goal for fine-grained guidance. Finally, "look backward" audits the entire trajectory to correct accumulated drift before stopping. Requiring no gradient updates or task-specific fine-tuning, our planner drops into existing VLN pipelines with minimal overhead. Three-Step Nav achieves state-of-the-art zero-shot performance on the R2R-CE and RxR-CE dataset. Our code is available at https://github.com/ZoeyZheng0/3-step-Nav.

Three-Step Nav: A Hierarchical Global-Local Planner for Zero-Shot Vision-and-Language Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理