IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation

📄 arXiv: 2511.17384v1 📥 PDF

作者: Yifan Li, Lichi Li, Anh Dao, Xinyu Zhou, Yicheng Qiao, Zheda Mai, Daeun Lee, Zichen Chen, Zhen Tan, Mohit Bansal, Yu Kong

分类: cs.RO, cs.CV

发布日期: 2025-11-21


💡 一句话要点

提出IndustryNav:动态工业导航场景下具身智能体的空间推理基准

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 动态导航 空间推理 工业环境 视觉大语言模型

📋 核心要点

  1. 现有具身智能基准侧重静态环境和孤立能力评估,无法有效衡量智能体在动态真实场景下的空间推理能力。
  2. IndustryNav基准通过构建动态工业导航环境,结合碰撞率和警告率等指标,全面评估智能体的安全性和距离估计能力。
  3. 实验结果表明,现有VLLM在动态环境中路径规划、避障和主动探索方面存在不足,亟需提升。

📝 摘要(中文)

视觉大语言模型(VLLM)在具身智能体领域展现出巨大潜力,但在空间推理方面仍面临严峻挑战。现有的具身智能基准测试主要集中于被动的、静态的家庭环境,并且仅评估孤立的能力,无法捕捉动态、真实世界复杂性中的整体性能。为了填补这一空白,我们提出了IndustryNav,这是第一个用于主动空间推理的动态工业导航基准。IndustryNav利用12个手动创建的高保真Unity仓库场景,其中包含动态对象和人类移动。我们的评估采用PointGoal导航流程,有效地将以自我为中心的视觉与全局里程计相结合,以评估整体的局部-全局规划。至关重要的是,我们引入了“碰撞率”和“警告率”指标来衡量安全导向的行为和距离估计。对九个最先进的VLLM(包括GPT-5-mini、Claude-4.5和Gemini-2.5等模型)的全面研究表明,闭源模型保持了一致的优势;然而,所有智能体在稳健的路径规划、避障和主动探索方面都表现出明显的不足。这突显了具身智能研究迫切需要超越被动感知,转向需要在动态、真实世界环境中进行稳定规划、主动探索和安全行为的任务。

🔬 方法详解

问题定义:现有具身智能体在动态、复杂的真实世界环境中进行空间推理时面临挑战。现有基准测试主要关注静态环境,缺乏对智能体在动态环境中进行安全导航和主动探索能力的评估。因此,需要一个更具挑战性的基准来推动相关研究。

核心思路:IndustryNav的核心思路是构建一个动态的工业导航环境,其中包含动态物体和人类移动,从而模拟真实世界的复杂性。通过引入碰撞率和警告率等指标,可以更全面地评估智能体的安全性和距离估计能力。结合PointGoal导航流程,可以有效评估智能体的局部-全局规划能力。

技术框架:IndustryNav的整体框架包括以下几个主要部分:1) 12个手动创建的高保真Unity仓库场景,用于模拟真实的工业环境;2) PointGoal导航流程,用于评估智能体的导航能力;3) 碰撞率和警告率指标,用于评估智能体的安全性和距离估计能力;4) 一系列最先进的VLLM模型,用于进行基准测试。

关键创新:IndustryNav的关键创新在于:1) 它是第一个用于主动空间推理的动态工业导航基准;2) 它引入了碰撞率和警告率等指标,可以更全面地评估智能体的安全性和距离估计能力;3) 它提供了一个高保真的、可重复使用的环境,可以促进相关研究的进展。

关键设计:IndustryNav的关键设计包括:1) 场景设计:场景中包含动态物体和人类移动,增加了导航的复杂性;2) 指标设计:碰撞率和警告率可以有效衡量智能体的安全性;3) 导航流程设计:PointGoal导航流程可以有效评估智能体的局部-全局规划能力。具体参数设置和网络结构等细节未在论文中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对九个最先进的VLLM的评估表明,闭源模型(如GPT-5-mini、Claude-4.5和Gemini-2.5)在IndustryNav基准上表现出相对优势,但所有模型在稳健的路径规划、避障和主动探索方面都存在明显的不足。这表明现有VLLM在动态工业环境中仍有很大的提升空间,需要进一步的研究和改进。

🎯 应用场景

IndustryNav的研究成果可应用于工业自动化、智能仓储、机器人导航等领域。通过提升具身智能体在动态环境中的空间推理和安全导航能力,可以实现更高效、更安全的自动化作业,降低事故风险,提高生产效率。未来,该研究有望推动智能机器人在复杂工业环境中的广泛应用。

📄 摘要(原文)

While Visual Large Language Models (VLLMs) show great promise as embodied agents, they continue to face substantial challenges in spatial reasoning. Existing embodied benchmarks largely focus on passive, static household environments and evaluate only isolated capabilities, failing to capture holistic performance in dynamic, real-world complexity. To fill this gap, we present IndustryNav, the first dynamic industrial navigation benchmark for active spatial reasoning. IndustryNav leverages 12 manually created, high-fidelity Unity warehouse scenarios featuring dynamic objects and human movement. Our evaluation employs a PointGoal navigation pipeline that effectively combines egocentric vision with global odometry to assess holistic local-global planning. Crucially, we introduce the "collision rate" and "warning rate" metrics to measure safety-oriented behaviors and distance estimation. A comprehensive study of nine state-of-the-art VLLMs (including models such as GPT-5-mini, Claude-4.5, and Gemini-2.5) reveals that closed-source models maintain a consistent advantage; however, all agents exhibit notable deficiencies in robust path planning, collision avoidance and active exploration. This highlights a critical need for embodied research to move beyond passive perception and toward tasks that demand stable planning, active exploration, and safe behavior in dynamic, real-world environment.