DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation

📄 arXiv: 2603.28691v1 📥 PDF

作者: Maoguo Gao, Zejun Zhu, Zhiming Sun, Zhengwei Ma, Longze Yuan, Zhongjing Ma, Zhigang Gao, Jinhui Zhang, Suli Zou

分类: cs.RO

发布日期: 2026-03-30

备注: 8 pages, 4 figures. Project page: https://coolmaoguo.github.io/drive-nav-page/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出DRIVE-Nav以解决开放词汇目标导航中的路径效率问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇导航 路径选择 智能体导航 视觉-语言融合 机器人技术

📋 核心要点

  1. 现有的零样本目标导航方法在不完整观察下推理密集前沿点,导致路径选择不稳定和冗余重访。
  2. DRIVE-Nav通过围绕持久方向组织探索,限制决策在相关方向内,从而提高路径效率。
  3. 在多个数据集上,DRIVE-Nav展示了显著的性能提升,尤其在HM3D-OVON上超越了之前的最佳方法。

📝 摘要(中文)

开放词汇目标导航(OVON)要求具身智能体在未知环境中定位语言指定的目标。现有的零样本方法常常在不完整的观察下对密集前沿点进行推理,导致路径选择不稳定、重复访问和不必要的行动开销。本文提出了DRIVE-Nav,一个围绕持久方向组织探索的结构化框架。通过更全面地检查遇到的方向,并将后续决策限制在前方240度视野内的相关方向,DRIVE-Nav减少了冗余的重访,提高了路径效率。实验结果表明,DRIVE-Nav在HM3D-OVON、HM3Dv2和MP3D上表现出色,尤其在HM3D-OVON上实现了50.2%的成功率(SR)和32.6%的路径效率(SPL),分别比之前的最佳方法提高了1.9%和5.6%。

🔬 方法详解

问题定义:本文旨在解决开放词汇目标导航中的路径选择不稳定和冗余重访问题。现有方法在不完整观察下推理密集前沿点,导致效率低下。

核心思路:DRIVE-Nav的核心思路是围绕持久方向进行探索,而非依赖原始前沿点。通过更全面地检查方向并限制决策范围,提升路径选择的稳定性和效率。

技术框架:DRIVE-Nav的整体架构包括方向候选提取、语义检查和跨帧验证等模块。首先,从加权快速行进法(FMM)路径中提取方向候选,然后维护代表性视图进行语义检查,最后结合视觉-语言引导的提示增强和跨帧验证以提高基础可靠性。

关键创新:DRIVE-Nav的主要创新在于其结构化的方向探索方法,与现有方法相比,显著减少了冗余重访并提高了路径效率。

关键设计:在参数设置上,DRIVE-Nav采用了240度的前向视野限制,并在损失函数中引入了与方向相关的权重,以优化路径选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在HM3D-OVON数据集上,DRIVE-Nav实现了50.2%的成功率(SR)和32.6%的路径效率(SPL),分别比之前的最佳方法提高了1.9%和5.6%。此外,在HM3Dv2和MP3D上也取得了最佳的SPL,展示了其在多个数据集上的一致性和优越性。

🎯 应用场景

DRIVE-Nav的研究成果在机器人导航、智能家居、无人驾驶等领域具有广泛的应用潜力。通过提高路径选择的效率和稳定性,该方法能够显著提升具身智能体在复杂环境中的导航能力,推动相关技术的实际部署和应用。

📄 摘要(原文)

Open-Vocabulary Object Navigation (OVON) requires an embodied agent to locate a language-specified target in unknown environments. Existing zero-shot methods often reason over dense frontier points under incomplete observations, causing unstable route selection, repeated revisits, and unnecessary action overhead. We present DRIVE-Nav, a structured framework that organizes exploration around persistent directions rather than raw frontiers. By inspecting encountered directions more completely and restricting subsequent decisions to still-relevant directions within a forward 240 degree view range, DRIVE-Nav reduces redundant revisits and improves path efficiency. The framework extracts and tracks directional candidates from weighted Fast Marching Method (FMM) paths, maintains representative views for semantic inspection, and combines vision-language-guided prompt enrichment with cross-frame verification to improve grounding reliability. Experiments on HM3D-OVON, HM3Dv2, and MP3D demonstrate strong overall performance and consistent efficiency gains. On HM3D-OVON, DRIVE-Nav achieves 50.2% SR and 32.6% SPL, improving the previous best method by 1.9% SR and 5.6% SPL. It also delivers the best SPL on HM3Dv2 and MP3D and transfers to a physical humanoid robot. Real-world deployment also demonstrates its effectiveness. Project page: https://coolmaoguo.github.io/drive-nav-page/