CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation

作者: Xia Su, Ruiqi Chen, Benlin Liu, Jingwei Ma, Zonglin Di, Ranjay Krishna, Jon Froehlich

分类: cs.CV, cs.RO

发布日期: 2026-02-20

🔗 代码/项目: GITHUB

💡 一句话要点

提出Capability-Conditioned Navigation以解决室内导航中的能力约束问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 室内导航 能力条件 机器人导航 空间推理 基准评估

📋 核心要点

现有的视觉语言模型在室内导航中未能充分考虑代理的移动能力限制，导致导航性能下降。
本文提出能力条件导航（CapNav）基准，专门评估VLM在特定物理能力下的导航表现。
实验结果表明，当前VLM在面对移动约束时性能显著下降，尤其在空间推理方面存在不足。

📝 摘要（中文）

视觉语言模型（VLMs）在视觉语言导航（VLN）领域取得了显著进展，为导航决策提供了新的可能性。然而，现实世界的导航受限于代理的移动能力。本文提出了能力条件导航（CapNav）基准，旨在评估VLMs在特定物理和操作能力下的室内导航能力。CapNav定义了五种代表性的人类和机器人代理，提供了45个真实室内场景、473个导航任务和2365个问答对。评估结果显示，当前VLM的导航性能在移动约束加剧时显著下降，甚至最先进的模型在需要空间推理的障碍类型上也面临挑战。最后，讨论了能力感知导航的意义及未来VLM在具身空间推理方面的提升机会。

🔬 方法详解

问题定义：本文旨在解决视觉语言模型在室内导航中未考虑代理移动能力的局限性，导致导航效果不佳的问题。现有方法在面对不同类型的代理时，缺乏针对性的评估标准。

核心思路：论文提出了能力条件导航（CapNav）基准，通过定义不同代理的物理特性和移动能力，评估VLM在复杂室内环境中的导航能力。这样的设计使得模型能够针对不同的代理特性进行优化。

技术框架：CapNav基准包括五种代表性代理，提供45个真实室内场景、473个导航任务和2365个问答对。整体流程包括代理能力定义、环境场景构建和导航任务评估三个主要模块。

关键创新：最重要的创新在于引入了能力条件的概念，使得VLM的评估不仅限于任务完成情况，还考虑了代理的物理和操作能力。这一方法与传统的导航评估方法有本质区别。

关键设计：在设计中，定义了代理的物理维度、移动能力和环境交互能力，确保评估的全面性。同时，采用了多样化的场景和任务设置，以测试模型在不同条件下的表现。具体的损失函数和网络结构细节在论文中进行了详细描述。

📊 实验亮点

实验结果显示，评估的13个现代VLM在移动约束加剧时性能显著下降，尤其在处理需要空间推理的障碍时表现不佳。当前最先进模型的导航成功率在特定任务中下降超过30%。

🎯 应用场景

该研究的潜在应用领域包括智能家居、服务机器人和自动化物流等。通过考虑代理的能力，能够提升机器人在复杂环境中的导航效率和安全性，具有重要的实际价值和未来影响。

📄 摘要（原文）

Vision-Language Models (VLMs) have shown remarkable progress in Vision-Language Navigation (VLN), offering new possibilities for navigation decision-making that could benefit both robotic platforms and human users. However, real-world navigation is inherently conditioned by the agent's mobility constraints. For example, a sweeping robot cannot traverse stairs, while a quadruped can. We introduce Capability-Conditioned Navigation (CapNav), a benchmark designed to evaluate how well VLMs can navigate complex indoor spaces given an agent's specific physical and operational capabilities. CapNav defines five representative human and robot agents, each described with physical dimensions, mobility capabilities, and environmental interaction abilities. CapNav provides 45 real-world indoor scenes, 473 navigation tasks, and 2365 QA pairs to test if VLMs can traverse indoor environments based on agent capabilities. We evaluate 13 modern VLMs and find that current VLM's navigation performance drops sharply as mobility constraints tighten, and that even state-of-the-art models struggle with obstacle types that require reasoning on spatial dimensions. We conclude by discussing the implications for capability-aware navigation and the opportunities for advancing embodied spatial reasoning in future VLMs. The benchmark is available at https://github.com/makeabilitylab/CapNav

CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理