TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

📄 arXiv: 2502.07306v2 📥 PDF

作者: Navid Rajabi, Jana Kosecka

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.RO

发布日期: 2025-02-11 (更新: 2025-06-09)

备注: Accepted to CVPR 2025 Workshop - Foundation Models Meet Embodied Agents


💡 一句话要点

提出TRAVEL,一种免训练的视觉语言导航检索与对齐方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 免训练学习 大型语言模型 视觉语言模型 动态规划 机器人导航

📋 核心要点

  1. 现有VLN方法依赖于训练,泛化性受限,且难以利用预训练的LLM和VLM的强大能力。
  2. TRAVEL方法将VLN分解为地标提取、路径假设生成、视觉对齐和路径评估四个模块,实现免训练导航。
  3. 在R2R-Habitat数据集上的实验表明,TRAVEL方法优于VLMaps等基线方法,并量化了视觉基础对导航性能的影响。

📝 摘要(中文)

本文提出了一种模块化的视觉语言导航(VLN)方法,该方法将问题分解为四个子模块,并在零样本设置中使用最先进的大型语言模型(LLM)和视觉语言模型(VLM)。给定自然语言的导航指令,我们首先提示LLM提取地标以及访问它们的顺序。假设已知环境模型,我们检索最后一个地标的前k个位置,并使用环境拓扑图上的最短路径算法生成从起始位置到最后一个地标的k个路径假设。每个路径假设由一系列全景图像表示。然后,我们使用动态规划来计算全景图像序列和地标名称序列之间的对齐分数,该分数与从VLM获得的匹配分数相匹配。最后,我们计算产生最高对齐分数的假设与真实路径之间的nDTW指标,以评估路径的保真度。我们在复杂的R2R-Habitat指令数据集上展示了优于其他使用联合语义地图(如VLMaps)的方法的性能,并详细量化了视觉基础对导航性能的影响。

🔬 方法详解

问题定义:视觉语言导航(VLN)任务旨在让智能体根据自然语言指令,在真实或模拟环境中导航到目标位置。现有方法通常需要大量的训练数据,并且难以充分利用预训练的大型语言模型(LLM)和视觉语言模型(VLM)的强大能力。这些方法在泛化性和适应性方面存在局限性,难以应对复杂和未知的环境。

核心思路:TRAVEL方法的核心思路是将VLN任务分解为几个独立的子模块,每个模块都可以利用现有的预训练模型,而无需进行额外的训练。通过将导航指令分解为一系列地标,并利用视觉信息对路径假设进行排序,该方法能够在零样本设置下实现有效的导航。

技术框架:TRAVEL方法的整体框架包括以下几个主要模块: 1. 地标提取:使用LLM从导航指令中提取地标及其访问顺序。 2. 路径假设生成:基于环境的拓扑地图,检索最后一个地标的候选位置,并生成从起始位置到这些候选位置的k条最短路径。 3. 视觉对齐:使用动态规划算法,计算每个路径假设的全景图像序列与地标名称序列之间的对齐分数,该分数基于VLM提供的视觉匹配分数。 4. 路径评估:使用归一化动态时间规整(nDTW)指标,评估具有最高对齐分数的路径假设的保真度。

关键创新:TRAVEL方法最重要的创新点在于其免训练的模块化设计。它将VLN任务分解为几个独立的子模块,每个模块都可以利用现有的预训练模型,而无需进行额外的训练。这种设计使得该方法具有很强的泛化性和适应性,可以轻松地应用于不同的环境和指令。

关键设计: * 地标提取:使用提示工程(Prompt Engineering)来指导LLM提取地标信息。 * 路径假设生成:利用最短路径算法在拓扑地图上生成候选路径。 * 视觉对齐:使用动态规划算法来寻找最佳的视觉-语言对齐。 * 路径评估:使用nDTW作为评估指标,衡量路径的保真度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRAVEL方法在R2R-Habitat数据集上取得了显著的性能提升,超越了VLMaps等基线方法。实验结果表明,该方法能够有效地利用视觉信息进行路径规划和导航,并且在零样本设置下具有很强的泛化能力。通过详细的消融实验,作者量化了视觉基础对导航性能的影响,证明了该方法在视觉语言导航任务中的有效性。

🎯 应用场景

TRAVEL方法具有广泛的应用前景,例如在机器人导航、虚拟现实、智能助手等领域。它可以应用于室内导航、户外探索、以及复杂环境下的任务执行。该方法无需训练的特性使其能够快速部署到新的环境和场景中,具有很高的实用价值。未来的研究可以进一步探索如何利用更先进的LLM和VLM来提高导航性能,并将其应用于更复杂的任务。

📄 摘要(原文)

In this work, we propose a modular approach for the Vision-Language Navigation (VLN) task by decomposing the problem into four sub-modules that use state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs) in a zero-shot setting. Given navigation instruction in natural language, we first prompt LLM to extract the landmarks and the order in which they are visited. Assuming the known model of the environment, we retrieve the top-k locations of the last landmark and generate $k$ path hypotheses from the starting location to the last landmark using the shortest path algorithm on the topological map of the environment. Each path hypothesis is represented by a sequence of panoramas. We then use dynamic programming to compute the alignment score between the sequence of panoramas and the sequence of landmark names, which match scores obtained from VLM. Finally, we compute the nDTW metric between the hypothesis that yields the highest alignment score to evaluate the path fidelity. We demonstrate superior performance compared to other approaches that use joint semantic maps like VLMaps on the complex R2R-Habitat instruction dataset and quantify in detail the effect of visual grounding on navigation performance.