Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models

作者: Yue Zhang, Ziqiao Ma, Jialu Li, Yanyuan Qiao, Zun Wang, Joyce Chai, Qi Wu, Mohit Bansal, Parisa Kordjamshidi

分类: cs.CL, cs.CV

发布日期: 2024-07-09 (更新: 2024-12-29)

备注: Authors contributed equally to this work, and supervisors contributed equal advising to this work; GitHub repository: https://github.com/zhangyuejoslin/VLN-Survey-with-Foundation-Models

💡 一句话要点

综述视觉-语言导航：聚焦基础模型时代的方法与未来机遇

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言导航 具身智能 基础模型 大型语言模型 视觉Transformer 机器人导航 环境感知

📋 核心要点

视觉-语言导航任务面临着环境理解、指令解析和路径规划等多重挑战，现有方法在复杂场景下的泛化能力有限。
该综述着眼于如何利用近年来兴起的基础模型，例如大型语言模型和视觉Transformer，来提升VLN系统的性能。
通过对现有方法的系统性回顾和分析，该综述旨在为VLN研究人员和基础模型研究人员提供有价值的资源和未来研究方向。

📝 摘要（中文）

近年来，视觉-语言导航（VLN）受到了越来越多的关注，并且涌现出许多方法来推进其发展。基础模型取得的显著成就已经影响了VLN研究的挑战和方法。本综述提供了一个自顶向下的回顾，它采用了一个基于具身规划和推理的原则性框架，并强调了当前的方法和利用基础模型来应对VLN挑战的未来机会。我们希望我们深入的讨论能够提供有价值的资源和见解：一方面，记录该领域的进展并探索基础模型的机遇和潜在作用；另一方面，将VLN中的不同挑战和解决方案组织起来，提供给基础模型研究人员。

🔬 方法详解

问题定义：视觉-语言导航（VLN）旨在让智能体根据自然语言指令在真实或模拟环境中导航到目标位置。现有方法通常依赖于特定数据集的训练，泛化能力较弱，难以处理复杂和未知的环境。此外，如何有效地融合视觉和语言信息，并进行长期规划也是一个挑战。

核心思路：该综述的核心思路是分析如何利用近年来涌现的基础模型来解决VLN中的关键问题。基础模型，如大型语言模型（LLM）和视觉Transformer，具有强大的表征学习和泛化能力，可以帮助智能体更好地理解环境、解析指令和进行规划。

技术框架：该综述采用了一个自顶向下的框架，将VLN任务分解为具身规划和推理两个主要阶段。具身规划涉及路径规划和动作选择，而推理则包括环境理解、指令解析和决策制定。综述分析了现有方法在每个阶段如何利用基础模型，并探讨了未来的研究方向。

关键创新：该综述的创新之处在于它系统性地回顾了基础模型在VLN中的应用，并提出了未来研究的潜在方向。它不仅关注了现有方法的优点，也指出了其局限性，并强调了基础模型在提升VLN系统性能方面的潜力。

关键设计：综述中讨论的关键设计包括如何将视觉Transformer用于环境感知，如何利用大型语言模型进行指令解析和路径规划，以及如何设计有效的训练策略来提升模型的泛化能力。此外，还探讨了如何利用强化学习和模仿学习等方法来训练VLN智能体。

🖼️ 关键图片

📊 实验亮点

该综述总结了当前VLN领域利用基础模型的研究进展，并指出了未来研究的潜在方向，例如如何利用大型语言模型进行更高级的推理和规划，如何将视觉Transformer用于更精细的环境感知，以及如何设计更有效的训练策略来提升模型的泛化能力。该综述为VLN研究人员和基础模型研究人员提供了有价值的参考。

🎯 应用场景

视觉-语言导航技术在机器人导航、虚拟现实、智能家居等领域具有广泛的应用前景。例如，可以应用于服务机器人，使其能够根据用户的语音指令在室内环境中导航；也可以应用于虚拟现实游戏，为玩家提供更加沉浸式的体验。此外，该技术还可以用于辅助视障人士进行导航。

📄 摘要（原文）

Vision-and-Language Navigation (VLN) has gained increasing attention over recent years and many approaches have emerged to advance their development. The remarkable achievements of foundation models have shaped the challenges and proposed methods for VLN research. In this survey, we provide a top-down review that adopts a principled framework for embodied planning and reasoning, and emphasizes the current methods and future opportunities leveraging foundation models to address VLN challenges. We hope our in-depth discussions could provide valuable resources and insights: on one hand, to milestone the progress and explore opportunities and potential roles for foundation models in this field, and on the other, to organize different challenges and solutions in VLN to foundation model researchers.

Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理