NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

作者: Tim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey

分类: cs.RO

发布日期: 2025-10-30 (更新: 2025-11-04)

备注: 9 pages, 6 figures, under review at IEEE conference

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

NaviTrace：提出视觉-语言模型具身导航评测基准，解决真实机器人导航评估难题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 机器人导航 具身智能 视觉问答 轨迹预测

📋 核心要点

现有机器人导航系统集成视觉-语言模型面临评估难题，真实环境成本高，仿真环境过于简化，缺乏有效基准。
NaviTrace提出一种新的视觉问答基准，通过指令和具身类型输入，要求模型输出图像空间的2D导航轨迹。
实验结果表明，现有VLM在空间定位和目标定位方面存在不足，与人类表现存在差距，为未来研究提供了方向。

📝 摘要（中文）

视觉-语言模型（VLM）在各种任务和场景中表现出前所未有的性能和泛化能力。将这些基础模型集成到机器人导航系统中，为构建通用机器人开辟了道路。然而，评估这些模型的导航能力仍然受到昂贵的真实世界试验、过度简化的模拟和有限的基准的限制。我们推出了NaviTrace，这是一个高质量的视觉问答基准，模型接收指令和具身类型（人、腿式机器人、轮式机器人、自行车），并且必须在图像空间中输出2D导航轨迹。在1000个场景和3000多个专家轨迹中，我们使用新引入的语义感知轨迹分数系统地评估了八个最先进的VLM。该指标结合了动态时间规整距离、目标终点误差以及从每像素语义导出的具身条件惩罚，并与人类偏好相关。我们的评估揭示了由于不良的空间定位和目标定位导致与人类表现的持续差距。NaviTrace为真实世界机器人导航建立了一个可扩展且可重复的基准。

🔬 方法详解

问题定义：现有视觉-语言模型在机器人导航中的应用缺乏有效的评估方法。真实环境测试成本高昂且难以复现，而现有仿真环境又过于简化，无法真实反映实际导航场景的复杂性。因此，需要一个高质量、可扩展且可重复的基准来评估VLM的导航能力，并发现其在实际应用中的不足。

核心思路：NaviTrace的核心思路是构建一个视觉问答基准，通过向模型提供指令和具身类型（例如，人、腿式机器人、轮式机器人、自行车），要求模型在图像空间中输出2D导航轨迹。这种方法将导航问题转化为一个轨迹预测问题，从而可以使用各种指标来评估模型的性能。同时，通过引入不同类型的具身，可以考察模型对不同运动方式的适应能力。

技术框架：NaviTrace基准包含以下几个主要组成部分：1) 包含1000个不同场景的数据集，每个场景包含视觉信息和导航指令；2) 超过3000条专家导航轨迹，作为模型训练和评估的ground truth；3) 一种新的语义感知轨迹评分指标，用于评估模型生成的轨迹与专家轨迹的相似度。该指标综合考虑了动态时间规整距离、目标终点误差以及从每像素语义导出的具身条件惩罚。

关键创新：NaviTrace的关键创新在于：1) 提出了一个高质量的视觉问答基准，可以用于评估VLM在机器人导航中的能力；2) 引入了一种新的语义感知轨迹评分指标，该指标能够更准确地反映模型生成的轨迹与人类偏好的相关性；3) 系统地评估了八个最先进的VLM，揭示了它们在空间定位和目标定位方面的不足。

关键设计：语义感知轨迹评分指标是NaviTrace的关键设计之一。该指标不仅考虑了轨迹的几何形状，还考虑了轨迹经过的区域的语义信息。例如，如果模型生成的轨迹经过了障碍物，则会受到惩罚。此外，该指标还考虑了不同具身类型的运动约束。例如，腿式机器人可以跨越较小的障碍物，而轮式机器人则不能。

📊 实验亮点

NaviTrace基准测试了8个先进的视觉语言模型，结果表明这些模型在空间定位和目标定位方面与人类表现存在明显差距。通过语义感知轨迹评分指标，NaviTrace能够更准确地评估模型的导航性能，并为未来的研究提供了明确的方向，例如，如何提高VLM对环境的理解和推理能力。

🎯 应用场景

NaviTrace为机器人导航领域提供了一个重要的评估工具，可用于开发更智能、更通用的机器人。该基准可以促进VLM在机器人导航中的应用，例如，在家庭服务、物流配送、灾难救援等领域。通过不断改进VLM的导航能力，可以实现更自主、更可靠的机器人系统，从而提高生产效率和生活质量。

📄 摘要（原文）

Vision-language models demonstrate unprecedented performance and generalization across a wide range of tasks and scenarios. Integrating these foundation models into robotic navigation systems opens pathways toward building general-purpose robots. Yet, evaluating these models' navigation capabilities remains constrained by costly real-world trials, overly simplified simulations, and limited benchmarks. We introduce NaviTrace, a high-quality Visual Question Answering benchmark where a model receives an instruction and embodiment type (human, legged robot, wheeled robot, bicycle) and must output a 2D navigation trace in image space. Across 1000 scenarios and more than 3000 expert traces, we systematically evaluate eight state-of-the-art VLMs using a newly introduced semantic-aware trace score. This metric combines Dynamic Time Warping distance, goal endpoint error, and embodiment-conditioned penalties derived from per-pixel semantics and correlates with human preferences. Our evaluation reveals consistent gap to human performance caused by poor spatial grounding and goal localization. NaviTrace establishes a scalable and reproducible benchmark for real-world robotic navigation. The benchmark and leaderboard can be found at https://leggedrobotics.github.io/navitrace_webpage/.

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册