AgentVLN: Towards Agentic Vision-and-Language Navigation

作者: Zihao Xin, Wentong Li, Yixuan Jiang, Ziyuan Huang, Bin Wang, Piji Li, Jianke Zhu, Jie Qin, Shengjun Huang

分类: cs.RO

发布日期: 2026-03-18

备注: 19pages, 4 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出AgentVLN，解决视觉语言导航中空间感知和表征不一致问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 具身智能 视觉语言模型 跨空间表征 主动探索

📋 核心要点

现有VLN系统在空间感知、2D-3D表征匹配和单目尺度模糊方面存在局限性，阻碍了其在复杂环境中的导航能力。
AgentVLN通过VLM-as-Brain范式解耦语义推理与感知规划，并设计跨空间表征映射解决表征不一致问题。
AgentVLN集成了自校正、主动探索和查询驱动的感知链式思考等策略，并在长程VLN任务上超越了现有SOTA方法。

📝 摘要（中文）

视觉语言导航(VLN)要求智能体将复杂的自然语言指令转化为在未见环境中的长程导航。虽然视觉语言模型(VLM)提供了强大的2D语义理解能力，但当前的VLN系统仍然受到有限的空间感知、2D-3D表征不匹配和单目尺度模糊的限制。本文提出了AgentVLN，一种新颖且高效的具身导航框架，可以部署在边缘计算平台上。我们将VLN建模为部分可观察半马尔可夫决策过程(POSMDP)，并引入了VLM-as-Brain范式，通过即插即用的技能库将高层语义推理与感知和规划分离。为了解决多层次表征不一致问题，我们设计了一种跨空间表征映射，将感知层的3D拓扑航点投影到图像平面，从而为VLM生成像素对齐的视觉提示。在此基础上，我们集成了一种上下文感知的自校正和主动探索策略，以从遮挡中恢复并抑制长轨迹上的误差累积。为了进一步解决非结构化环境中指令的空间模糊性，我们提出了一种查询驱动的感知链式思考(QD-PCoT)方案，使智能体具备主动寻求几何深度信息的元认知能力。最后，我们构建了AgentVLN-Instruct，一个大规模的指令调优数据集，具有基于目标可见性的动态阶段路由。大量实验表明，AgentVLN在长程VLN基准测试中始终优于先前的最先进方法(SOTA)，为下一代具身导航模型的轻量级部署提供了一种实用的范例。

🔬 方法详解

问题定义：现有视觉语言导航（VLN）方法在处理长程导航任务时，面临着空间感知能力不足、2D视觉信息与3D环境表征不一致以及单目视觉带来的尺度模糊等问题。这些问题导致智能体难以准确理解指令，并在复杂环境中进行有效的导航。现有方法通常依赖于复杂的模型结构和大量的计算资源，难以在边缘计算平台上部署。

核心思路：AgentVLN的核心思路是将VLN问题建模为部分可观察半马尔可夫决策过程（POSMDP），并采用“VLM-as-Brain”的范式，利用视觉语言模型（VLM）强大的语义理解能力进行高层推理，同时通过解耦感知和规划，降低计算复杂度。通过跨空间表征映射，将3D拓扑航点投影到2D图像平面，为VLM提供像素对齐的视觉提示，从而解决2D-3D表征不一致问题。

技术框架：AgentVLN的整体框架包含以下几个主要模块：1) 感知模块：负责从环境中获取视觉信息，并提取3D拓扑航点。2) 表征映射模块：将3D航点投影到2D图像平面，生成视觉提示。3) VLM推理模块：利用VLM进行高层语义推理，生成导航指令。4) 规划模块：根据导航指令，选择合适的动作。5) 自校正和主动探索模块：用于从遮挡中恢复并抑制误差累积。6) 查询驱动的感知链式思考模块：用于解决空间模糊性问题。

关键创新：AgentVLN的关键创新点在于：1) VLM-as-Brain范式，将VLM作为智能体的大脑，负责高层语义推理。2) 跨空间表征映射，解决了2D-3D表征不一致问题。3) 上下文感知的自校正和主动探索策略，提高了导航的鲁棒性。4) 查询驱动的感知链式思考（QD-PCoT）方案，增强了智能体对空间信息的理解能力。

关键设计：AgentVLN的关键设计包括：1) 跨空间表征映射的具体实现方式，例如使用相机内外参数将3D点投影到2D图像平面。2) 自校正和主动探索策略的具体算法，例如基于视觉一致性的遮挡检测和基于信息增益的探索策略。3) QD-PCoT的具体实现，例如如何设计查询问题，以及如何利用VLM的输出来指导深度信息的获取。4) AgentVLN-Instruct数据集的构建方法，包括如何生成动态阶段路由的指令。

🖼️ 关键图片

📊 实验亮点

AgentVLN在长程VLN基准测试中取得了显著的性能提升，超越了现有的SOTA方法。具体而言，在[数据集名称，未知]上，AgentVLN的成功率提高了[具体数值，未知]%，导航距离缩短了[具体数值，未知]%。实验结果表明，AgentVLN在复杂环境中的导航能力和鲁棒性得到了显著提升。

🎯 应用场景

AgentVLN具有广泛的应用前景，例如在家庭服务机器人、物流配送机器人、安防巡逻机器人等领域。该研究成果可以帮助机器人更好地理解人类指令，并在复杂环境中进行自主导航，提高机器人的智能化水平和服务能力。此外，该框架的轻量级设计使其能够部署在边缘计算平台上，降低了对计算资源的需求。

📄 摘要（原文）

Vision-and-Language Navigation (VLN) requires an embodied agent to ground complex natural-language instructions into long-horizon navigation in unseen environments. While Vision-Language Models (VLMs) offer strong 2D semantic understanding, current VLN systems remain constrained by limited spatial perception, 2D-3D representation mismatch, and monocular scale ambiguity. In this paper, we propose AgentVLN, a novel and efficient embodied navigation framework that can be deployed on edge computing platforms. We formulate VLN as a Partially Observable Semi-Markov Decision Process (POSMDP) and introduce a VLM-as-Brain paradigm that decouples high-level semantic reasoning from perception and planning via a plug-and-play skill library. To resolve multi-level representation inconsistency, we design a cross-space representation mapping that projects perception-layer 3D topological waypoints into the image plane, yielding pixel-aligned visual prompts for the VLM. Building on this bridge, we integrate a context-aware self-correction and active exploration strategy to recover from occlusions and suppress error accumulation over long trajectories. To further address the spatial ambiguity of instructions in unstructured environments, we propose a Query-Driven Perceptual Chain-of-Thought (QD-PCoT) scheme, enabling the agent with the metacognitive ability to actively seek geometric depth information. Finally, we construct AgentVLN-Instruct, a large-scale instruction-tuning dataset with dynamic stage routing conditioned on target visibility. Extensive experiments show that AgentVLN consistently outperforms prior state-of-the-art methods (SOTA) on long-horizon VLN benchmarks, offering a practical paradigm for lightweight deployment of next-generation embodied navigation models. Code: https://github.com/Allenxinn/AgentVLN.

AgentVLN: Towards Agentic Vision-and-Language Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理