AgentVLN: Towards Agentic Vision-and-Language Navigation

📄 arXiv: 2603.17670v1 📥 PDF

作者: Zihao Xin, Wentong Li, Yixuan Jiang, Ziyuan Huang, Bin Wang, Piji Li, Jianke Zhu, Jie Qin, Shengjun Huang

分类: cs.RO

发布日期: 2026-03-18

备注: 19pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出AgentVLN,解决视觉语言导航中空间感知和表征不一致问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 具身智能 视觉语言模型 跨空间表征 主动探索

📋 核心要点

  1. 现有VLN系统在空间感知、2D-3D表征匹配和单目尺度模糊方面存在局限性,阻碍了其在复杂环境中的导航能力。
  2. AgentVLN通过VLM-as-Brain范式解耦语义推理与感知规划,并设计跨空间表征映射解决表征不一致问题。
  3. AgentVLN集成了自校正、主动探索和查询驱动的感知链式思考等策略,并在长程VLN任务上超越了现有SOTA方法。

📝 摘要(中文)

视觉语言导航(VLN)要求智能体将复杂的自然语言指令转化为在未见环境中的长程导航。虽然视觉语言模型(VLM)提供了强大的2D语义理解能力,但当前的VLN系统仍然受到有限的空间感知、2D-3D表征不匹配和单目尺度模糊的限制。本文提出了AgentVLN,一种新颖且高效的具身导航框架,可以部署在边缘计算平台上。我们将VLN建模为部分可观察半马尔可夫决策过程(POSMDP),并引入了VLM-as-Brain范式,通过即插即用的技能库将高层语义推理与感知和规划分离。为了解决多层次表征不一致问题,我们设计了一种跨空间表征映射,将感知层的3D拓扑航点投影到图像平面,从而为VLM生成像素对齐的视觉提示。在此基础上,我们集成了一种上下文感知的自校正和主动探索策略,以从遮挡中恢复并抑制长轨迹上的误差累积。为了进一步解决非结构化环境中指令的空间模糊性,我们提出了一种查询驱动的感知链式思考(QD-PCoT)方案,使智能体具备主动寻求几何深度信息的元认知能力。最后,我们构建了AgentVLN-Instruct,一个大规模的指令调优数据集,具有基于目标可见性的动态阶段路由。大量实验表明,AgentVLN在长程VLN基准测试中始终优于先前的最先进方法(SOTA),为下一代具身导航模型的轻量级部署提供了一种实用的范例。

🔬 方法详解

问题定义:现有视觉语言导航(VLN)方法在处理长程导航任务时,面临着空间感知能力不足、2D视觉信息与3D环境表征不一致以及单目视觉带来的尺度模糊等问题。这些问题导致智能体难以准确理解指令,并在复杂环境中进行有效的导航。现有方法通常依赖于复杂的模型结构和大量的计算资源,难以在边缘计算平台上部署。

核心思路:AgentVLN的核心思路是将VLN问题建模为部分可观察半马尔可夫决策过程(POSMDP),并采用“VLM-as-Brain”的范式,利用视觉语言模型(VLM)强大的语义理解能力进行高层推理,同时通过解耦感知和规划,降低计算复杂度。通过跨空间表征映射,将3D拓扑航点投影到2D图像平面,为VLM提供像素对齐的视觉提示,从而解决2D-3D表征不一致问题。

技术框架:AgentVLN的整体框架包含以下几个主要模块:1) 感知模块:负责从环境中获取视觉信息,并提取3D拓扑航点。2) 表征映射模块:将3D航点投影到2D图像平面,生成视觉提示。3) VLM推理模块:利用VLM进行高层语义推理,生成导航指令。4) 规划模块:根据导航指令,选择合适的动作。5) 自校正和主动探索模块:用于从遮挡中恢复并抑制误差累积。6) 查询驱动的感知链式思考模块:用于解决空间模糊性问题。

关键创新:AgentVLN的关键创新点在于:1) VLM-as-Brain范式,将VLM作为智能体的大脑,负责高层语义推理。2) 跨空间表征映射,解决了2D-3D表征不一致问题。3) 上下文感知的自校正和主动探索策略,提高了导航的鲁棒性。4) 查询驱动的感知链式思考(QD-PCoT)方案,增强了智能体对空间信息的理解能力。

关键设计:AgentVLN的关键设计包括:1) 跨空间表征映射的具体实现方式,例如使用相机内外参数将3D点投影到2D图像平面。2) 自校正和主动探索策略的具体算法,例如基于视觉一致性的遮挡检测和基于信息增益的探索策略。3) QD-PCoT的具体实现,例如如何设计查询问题,以及如何利用VLM的输出来指导深度信息的获取。4) AgentVLN-Instruct数据集的构建方法,包括如何生成动态阶段路由的指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AgentVLN在长程VLN基准测试中取得了显著的性能提升,超越了现有的SOTA方法。具体而言,在[数据集名称,未知]上,AgentVLN的成功率提高了[具体数值,未知]%,导航距离缩短了[具体数值,未知]%。实验结果表明,AgentVLN在复杂环境中的导航能力和鲁棒性得到了显著提升。

🎯 应用场景

AgentVLN具有广泛的应用前景,例如在家庭服务机器人、物流配送机器人、安防巡逻机器人等领域。该研究成果可以帮助机器人更好地理解人类指令,并在复杂环境中进行自主导航,提高机器人的智能化水平和服务能力。此外,该框架的轻量级设计使其能够部署在边缘计算平台上,降低了对计算资源的需求。

📄 摘要(原文)

Vision-and-Language Navigation (VLN) requires an embodied agent to ground complex natural-language instructions into long-horizon navigation in unseen environments. While Vision-Language Models (VLMs) offer strong 2D semantic understanding, current VLN systems remain constrained by limited spatial perception, 2D-3D representation mismatch, and monocular scale ambiguity. In this paper, we propose AgentVLN, a novel and efficient embodied navigation framework that can be deployed on edge computing platforms. We formulate VLN as a Partially Observable Semi-Markov Decision Process (POSMDP) and introduce a VLM-as-Brain paradigm that decouples high-level semantic reasoning from perception and planning via a plug-and-play skill library. To resolve multi-level representation inconsistency, we design a cross-space representation mapping that projects perception-layer 3D topological waypoints into the image plane, yielding pixel-aligned visual prompts for the VLM. Building on this bridge, we integrate a context-aware self-correction and active exploration strategy to recover from occlusions and suppress error accumulation over long trajectories. To further address the spatial ambiguity of instructions in unstructured environments, we propose a Query-Driven Perceptual Chain-of-Thought (QD-PCoT) scheme, enabling the agent with the metacognitive ability to actively seek geometric depth information. Finally, we construct AgentVLN-Instruct, a large-scale instruction-tuning dataset with dynamic stage routing conditioned on target visibility. Extensive experiments show that AgentVLN consistently outperforms prior state-of-the-art methods (SOTA) on long-horizon VLN benchmarks, offering a practical paradigm for lightweight deployment of next-generation embodied navigation models. Code: https://github.com/Allenxinn/AgentVLN.