DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes

📄 arXiv: 2410.02730v3 📥 PDF

作者: Zhaowei Wang, Hongming Zhang, Tianqing Fang, Ye Tian, Yue Yang, Kaixin Ma, Xiaoman Pan, Yangqiu Song, Dong Yu

分类: cs.CV, cs.CL, cs.RO

发布日期: 2024-10-03 (更新: 2025-09-01)

备注: EMNLP 2025


💡 一句话要点

DivScene:利用大规模视觉语言模型在多样化场景中实现开放词汇目标导航

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标导航 视觉语言模型 数据集构建 具身智能 机器人导航

📋 核心要点

  1. 现有方法在开放词汇目标导航任务中,由于缺乏足够多样化的数据集,难以充分评估和提升大型视觉语言模型的导航能力。
  2. 论文提出DivScene数据集,并微调LVLM模型,利用BFS生成的最短路径进行训练,以提升模型在开放词汇目标导航任务中的性能。
  3. 实验结果表明,通过在DivScene数据集上微调LVLM模型,导航成功率显著提升,超过GPT-4o 20%以上,验证了该方法的有效性。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在视觉问答和文档理解等任务中取得了显著进展。然而,它们理解具身环境并在其中导航的潜力仍未得到充分探索。本文首先研究了开放词汇目标导航的挑战,引入了DivScene,这是一个大规模数据集,包含81种场景类型的4614个房屋和5707种目标对象。与现有数据集相比,我们的数据集提供了更大的目标对象和场景类型多样性,从而能够进行全面的任务评估。我们在数据集上评估了各种使用LVLMs和LLMs的方法,发现当前模型在开放词汇目标导航能力方面仍然不足。然后,我们对LVLMs进行微调,以预测带有CoT解释的下一个动作。我们观察到,仅使用BFS生成的最短路径,无需任何人工监督,LVLM的导航能力就可以得到显著提高,成功率超过GPT-4o 20%以上。

🔬 方法详解

问题定义:论文旨在解决开放词汇目标导航问题,即在未知的环境中,根据自然语言指令找到特定的目标物体。现有方法的痛点在于缺乏足够大规模和多样化的数据集,难以充分训练和评估大型视觉语言模型的导航能力。此外,如何有效地利用视觉语言模型理解环境并规划路径也是一个挑战。

核心思路:论文的核心思路是构建一个大规模、多样化的数据集DivScene,并利用该数据集微调大型视觉语言模型,使其能够更好地理解环境和规划路径。通过引入CoT(Chain-of-Thought)解释,模型可以逐步推理并预测下一步动作,从而提高导航的成功率。同时,利用BFS生成的最短路径作为训练数据,可以有效地引导模型学习最优的导航策略。

技术框架:整体框架包括数据收集与构建、模型微调和评估三个主要阶段。首先,构建DivScene数据集,该数据集包含大量不同类型的场景和目标物体。然后,选择一个大型视觉语言模型作为基础模型,并使用DivScene数据集对其进行微调。在微调过程中,模型需要预测下一步动作,并给出CoT解释。最后,在DivScene数据集上评估微调后的模型,并与现有方法进行比较。

关键创新:论文的关键创新在于:1) 构建了大规模、多样化的DivScene数据集,为开放词汇目标导航任务提供了更全面的评估平台。2) 提出了基于CoT解释的LVLM微调方法,提高了模型理解环境和规划路径的能力。3) 利用BFS生成的最短路径作为训练数据,有效地引导模型学习最优的导航策略。

关键设计:在模型微调过程中,使用了交叉熵损失函数来优化模型预测下一步动作的能力。CoT解释的生成过程采用自回归的方式,即模型根据当前状态和历史动作生成下一步动作的解释。BFS生成最短路径时,考虑了环境的拓扑结构和目标物体的位置。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在DivScene数据集上,通过微调LVLM模型并结合BFS生成的最短路径进行训练,导航成功率显著提升,超过GPT-4o 20%以上。这表明该方法能够有效地提高大型视觉语言模型在开放词汇目标导航任务中的性能,为相关领域的研究提供了新的思路。

🎯 应用场景

该研究成果可应用于机器人导航、智能家居、虚拟现实等领域。例如,可以开发出能够根据用户指令在复杂环境中自主导航的机器人,或者构建更加智能化的家居系统,实现基于自然语言的目标物体定位和操作。未来,该技术有望在医疗、教育、安防等领域发挥重要作用。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) have achieved significant progress in tasks like visual question answering and document understanding. However, their potential to comprehend embodied environments and navigate within them remains underexplored. In this work, we first study the challenge of open-vocabulary object navigation by introducing DivScene, a large-scale dataset with 4,614 houses across 81 scene types and 5,707 kinds of target objects. Our dataset provides a much greater diversity of target objects and scene types than existing datasets, enabling a comprehensive task evaluation. We evaluated various methods with LVLMs and LLMs on our dataset and found that current models still fall short of open-vocab object navigation ability. Then, we fine-tuned LVLMs to predict the next action with CoT explanations. We observe that LVLM's navigation ability can be improved substantially with only BFS-generated shortest paths without any human supervision, surpassing GPT-4o by over 20% in success rates.