Three-Step Nav: A Hierarchical Global-Local Planner for Zero-Shot Vision-and-Language Navigation
作者: Wanrong Zheng, Yunhao Ge, Laurent Itti
分类: cs.CV, cs.RO
发布日期: 2026-04-29
备注: Accepted to AISTATS 2026. Code: https://github.com/ZoeyZheng0/3-step-Nav
期刊: Proceedings of the 29th International Conference on Artificial Intelligence and Statistics (AISTATS), 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出Three-Step Nav,解决零样本视觉语言导航中的漂移和早停问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 零样本学习 多模态学习 大型语言模型 机器人导航
📋 核心要点
- 现有基于MLLM的零样本VLN智能体易偏离航向和过早停止,导致导航成功率低。
- Three-Step Nav通过“向前看”、“现在看”和“向后看”三步协议,实现全局规划、局部对齐和轨迹纠正。
- 该方法无需微调,易于集成到现有VLN流程中,并在R2R-CE和RxR-CE数据集上取得SOTA性能。
📝 摘要(中文)
本文提出了一种名为Three-Step Nav的分层全局-局部规划器,旨在提升基于多模态大型语言模型(MLLM)的零样本视觉语言导航(VLN)性能。现有的VLN智能体在未知环境中进行视觉导航时,容易出现偏离航向、过早停止以及整体成功率低的问题。Three-Step Nav通过三步观察协议来解决这些问题:首先,“向前看”提取全局地标并勾勒粗略的计划;然后,“现在看”将当前视觉观察与下一个子目标对齐,以进行细粒度指导;最后,“向后看”审核整个轨迹,以纠正累积的漂移,然后再停止。该规划器无需梯度更新或特定于任务的微调,可以最小的开销嵌入到现有的VLN流程中。Three-Step Nav在R2R-CE和RxR-CE数据集上实现了最先进的零样本性能。
🔬 方法详解
问题定义:现有的基于多模态大型语言模型(MLLM)的零样本视觉语言导航(VLN)方法,在复杂环境中容易出现漂移、早停等问题,导致导航成功率较低。这些方法通常依赖于单步的视觉观察和语言指令,缺乏对全局环境的理解和对历史轨迹的纠正机制。
核心思路:Three-Step Nav的核心思路是引入一个分层的全局-局部规划器,通过三个步骤来模拟人类导航的行为:首先,通过“向前看”来获取全局信息,制定粗略的导航计划;然后,通过“现在看”将当前视觉信息与局部子目标对齐,进行精细的导航控制;最后,通过“向后看”来回顾整个导航轨迹,纠正累积的误差。
技术框架:Three-Step Nav的整体框架包含三个主要阶段:1) 全局规划阶段(Look Forward):利用MLLM分析当前视角下的全局地标,生成一个粗略的导航计划。2) 局部导航阶段(Look Now):将当前视觉观察与全局计划中的下一个子目标对齐,利用MLLM生成细粒度的导航指令。3) 轨迹纠正阶段(Look Backward):回顾整个导航轨迹,利用MLLM检测并纠正累积的漂移误差。这三个阶段循环执行,直到到达目标位置。
关键创新:该方法最重要的创新点在于提出了一个三步观察协议,将全局规划、局部导航和轨迹纠正三个环节有机地结合起来,从而有效地解决了零样本VLN中的漂移和早停问题。与现有方法相比,Three-Step Nav更加注重对全局环境的理解和对历史轨迹的纠正,从而提高了导航的鲁棒性和准确性。
关键设计:Three-Step Nav的关键设计在于如何有效地利用MLLM来实现三个观察步骤。具体来说,在“向前看”阶段,需要设计合适的prompt来引导MLLM提取全局地标信息;在“现在看”阶段,需要设计合适的prompt来引导MLLM生成细粒度的导航指令;在“向后看”阶段,需要设计合适的prompt来引导MLLM检测并纠正漂移误差。此外,如何平衡三个阶段的计算资源也是一个重要的设计考虑。
🖼️ 关键图片
📊 实验亮点
Three-Step Nav在R2R-CE和RxR-CE数据集上取得了显著的性能提升,实现了最先进的零样本性能。具体来说,在R2R-CE数据集上,该方法相对于现有最佳方法取得了X%的相对提升(具体数值未知)。在RxR-CE数据集上,该方法也取得了Y%的相对提升(具体数值未知)。这些结果表明,Three-Step Nav能够有效地解决零样本VLN中的漂移和早停问题。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,可以用于开发能够在复杂室内环境中自主导航的机器人,或者用于构建更加逼真的虚拟现实导航体验。此外,该方法还可以扩展到其他需要视觉和语言理解的任务中,例如智能家居控制、人机交互等。
📄 摘要(原文)
Breakthrough progress in vision-based navigation through unknown environments has been achieved by using multimodal large language models (MLLMs). These models can plan a sequence of motions by evaluating the current view at each time step against the task and goal given to the agent. However, current zero-shot Vision-and-Language Navigation (VLN) agents powered by MLLMs still tend to drift off course, halt prematurely, and achieve low overall success rates. We propose Three-Step Nav to counteract these failures with a three-view protocol: First, "look forward" to extract global landmarks and sketch a coarse plan. Then, "look now" to align the current visual observation with the next sub-goal for fine-grained guidance. Finally, "look backward" audits the entire trajectory to correct accumulated drift before stopping. Requiring no gradient updates or task-specific fine-tuning, our planner drops into existing VLN pipelines with minimal overhead. Three-Step Nav achieves state-of-the-art zero-shot performance on the R2R-CE and RxR-CE dataset. Our code is available at https://github.com/ZoeyZheng0/3-step-Nav.