VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation

📄 arXiv: 2509.18592v1 📥 PDF

作者: Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu

分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY

发布日期: 2025-09-23

备注: Codebase, datasets, and videos for VLN-Zero are available at: https://vln-zero.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

VLN-Zero:面向机器人导航零样本迁移的快速探索与缓存神经符号视觉语言规划

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 零样本学习 机器人导航 神经符号推理 场景图

📋 核心要点

  1. 现有方法依赖于穷举探索或刚性导航策略,难以泛化到新环境,限制了现实世界自主性的可扩展性。
  2. VLN-Zero利用视觉语言模型构建符号场景图,结合神经符号规划和缓存执行,实现高效的零样本导航。
  3. 实验表明,VLN-Zero在成功率、导航时间和VLM调用次数上均优于现有零样本方法和微调基线。

📝 摘要(中文)

VLN-Zero是一个双阶段视觉语言导航框架,旨在实现未知环境中的快速适应。该框架利用视觉语言模型(VLM)高效构建符号场景图,并实现零样本神经符号导航。在探索阶段,结构化提示引导VLM进行信息丰富且多样的轨迹搜索,从而产生紧凑的场景图表示。在部署阶段,神经符号规划器基于场景图和环境观察进行推理,生成可执行的计划,同时缓存执行模块通过重用先前计算的任务-位置轨迹来加速适应。通过结合快速探索、符号推理和缓存执行,该框架克服了现有视觉语言导航方法的计算低效和泛化性差的问题,从而在未知环境中实现鲁棒且可扩展的决策。VLN-Zero在各种环境中实现了比最先进的零样本模型高2倍的成功率,优于大多数微调基线,并且与最先进的模型相比,平均以一半的时间和减少55%的VLM调用次数到达目标位置。

🔬 方法详解

问题定义:现有视觉语言导航方法在未知环境中泛化能力差,要么依赖于耗时的探索,要么采用无法适应新环境的固定策略。这限制了机器人在真实世界中的自主导航能力。

核心思路:VLN-Zero的核心在于利用视觉语言模型的语义理解能力,快速构建环境的符号化表示(场景图),然后通过神经符号规划器在该场景图上进行推理,生成导航计划。同时,引入缓存机制,重用已学习的轨迹,加速在新环境中的适应。

技术框架:VLN-Zero包含两个主要阶段:探索阶段和部署阶段。在探索阶段,使用结构化提示引导VLM探索环境,构建场景图。在部署阶段,神经符号规划器基于场景图和环境观测生成导航计划,并通过缓存执行模块加速执行。

关键创新:VLN-Zero的关键创新在于结合了VLM的语义理解能力、符号推理的规划能力和缓存机制的快速适应能力。与现有方法相比,VLN-Zero无需大量训练数据即可在未知环境中实现高效导航。

关键设计:探索阶段的结构化提示用于引导VLM关注环境中的关键信息,例如地标和可导航区域。神经符号规划器使用场景图进行推理,生成可执行的导航指令。缓存执行模块维护一个任务-位置轨迹的缓存,以便在相似任务中重用已学习的轨迹。

📊 实验亮点

VLN-Zero在各种环境中实现了比最先进的零样本模型高2倍的成功率,优于大多数微调基线。与最先进的模型相比,VLN-Zero平均以一半的时间和减少55%的VLM调用次数到达目标位置,显著提高了导航效率和泛化能力。

🎯 应用场景

VLN-Zero具有广泛的应用前景,例如家庭服务机器人、仓库物流机器人、搜索救援机器人等。该方法能够使机器人在未知或动态环境中自主导航,完成各种任务,提高机器人的智能化水平和适应能力。未来,可以进一步研究如何将VLN-Zero应用于更复杂的环境和任务中。

📄 摘要(原文)

Rapid adaptation in unseen environments is essential for scalable real-world autonomy, yet existing approaches rely on exhaustive exploration or rigid navigation policies that fail to generalize. We present VLN-Zero, a two-phase vision-language navigation framework that leverages vision-language models to efficiently construct symbolic scene graphs and enable zero-shot neurosymbolic navigation. In the exploration phase, structured prompts guide VLM-based search toward informative and diverse trajectories, yielding compact scene graph representations. In the deployment phase, a neurosymbolic planner reasons over the scene graph and environmental observations to generate executable plans, while a cache-enabled execution module accelerates adaptation by reusing previously computed task-location trajectories. By combining rapid exploration, symbolic reasoning, and cache-enabled execution, the proposed framework overcomes the computational inefficiency and poor generalization of prior vision-language navigation methods, enabling robust and scalable decision-making in unseen environments. VLN-Zero achieves 2x higher success rate compared to state-of-the-art zero-shot models, outperforms most fine-tuned baselines, and reaches goal locations in half the time with 55% fewer VLM calls on average compared to state-of-the-art models across diverse environments. Codebase, datasets, and videos for VLN-Zero are available at: https://vln-zero.github.io/.