Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap

作者: Hanxuan Chen, Jie Zheng, Siqi Yang, Tianle Zeng, Siwei Feng, Songsheng Cheng, Ruilong Ren, Hanzhong Guo, Shuai Yuan, Xiangyue Wang, Kangli Wang, Ji Pei

分类: cs.RO

发布日期: 2026-04-15

💡 一句话要点

无人机视觉-语言导航综述：梳理技术演进与未来研究方向

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机 视觉-语言导航 具身智能 深度学习 大型模型 多智能体系统 空地协作 综述

📋 核心要点

现有UAV-VLN方法在动态户外环境下的鲁棒感知、语言歧义推理以及资源受限硬件上的模型部署方面存在挑战。
本文通过构建方法论分类体系，梳理了UAV-VLN领域的技术演进，并分析了现有方法的局限性。
本文总结了现有基准和局限性，提出了前瞻性的研究路线图，指导未来在多智能体集群协同和空地协作机器人等关键领域的研究。

📝 摘要（中文）

本文全面综述了无人机视觉-语言导航（UAV-VLN）领域，该领域旨在使无人机能够理解高级人类指令并在复杂的3D环境中执行长时程任务。文章从任务定义出发，系统地回顾了该领域的最新进展。建立了一个方法论分类体系，描述了从早期模块化和深度学习方法到当前由大型基础模型驱动的智能体系统的技术演变，包括视觉-语言模型（VLM）、视觉-语言-动作（VLA）模型，以及生成式世界模型与VLA架构的融合以实现物理世界推理。文章还系统地回顾了模拟器、数据集和评估指标等关键资源。此外，还对阻碍实际部署的主要挑战进行了分析，并提出了未来研究方向，如多智能体集群协同和空地协作机器人。

🔬 方法详解

问题定义：无人机视觉-语言导航（UAV-VLN）旨在解决如何让无人机理解人类的高级指令，并在复杂的3D环境中自主执行长时程任务的问题。现有方法在真实场景中面临诸多挑战，包括模拟环境与真实环境的差距（simulation-to-reality gap）、动态户外环境下的鲁棒感知问题、语言指令的歧义性理解，以及大型模型在资源受限的无人机硬件上的高效部署问题。这些问题限制了UAV-VLN技术在实际场景中的应用。

核心思路：本文的核心思路是对UAV-VLN领域的技术发展历程进行系统性的梳理和分析，从早期的模块化方法和深度学习方法，到目前基于大型基础模型的智能体系统，包括视觉-语言模型（VLM）、视觉-语言-动作（VLA）模型，以及生成式世界模型与VLA架构的融合。通过分析不同方法的优缺点，以及面临的挑战，为未来的研究方向提供指导。

技术框架：本文的框架主要包括以下几个部分：首先，对UAV-VLN任务进行形式化定义。其次，建立一个方法论分类体系，对现有方法进行分类和总结。然后，系统地回顾了UAV-VLN领域相关的资源，包括模拟器、数据集和评估指标。接着，对阻碍UAV-VLN技术实际部署的主要挑战进行分析。最后，提出了未来研究方向，包括多智能体集群协同和空地协作机器人等。

关键创新：本文的创新之处在于对UAV-VLN领域进行了全面而系统的综述，并提出了一个方法论分类体系，能够帮助研究人员更好地理解该领域的技术发展脉络。此外，本文还对阻碍UAV-VLN技术实际部署的主要挑战进行了深入分析，并提出了未来研究方向，为该领域的研究提供了指导。

关键设计：本文主要是一篇综述文章，没有提出新的算法或模型。但是，文章对现有方法的分类和总结，以及对未来研究方向的展望，都体现了作者对该领域的深入理解和思考。例如，文章强调了生成式世界模型与VLA架构的融合，以及多智能体集群协同和空地协作机器人在UAV-VLN领域的重要性。

🖼️ 关键图片

📊 实验亮点

本文是一篇综述文章，没有具体的实验结果。但其亮点在于对UAV-VLN领域进行了全面的梳理和分析，总结了现有方法的优缺点，并提出了未来研究方向。通过对现有基准和局限性的分析，为未来的研究提供了有价值的参考。

🎯 应用场景

UAV-VLN技术在物流配送、环境监测、灾害救援、安防巡逻等领域具有广泛的应用前景。通过理解人类指令，无人机可以自主完成复杂的任务，提高效率并降低成本。未来的发展将推动无人机在更广泛的场景中应用，例如智能交通、智慧城市等。

📄 摘要（原文）

Vision-and-Language Navigation for Unmanned Aerial Vehicles (UAV-VLN) represents a pivotal challenge in embodied artificial intelligence, focused on enabling UAVs to interpret high-level human commands and execute long-horizon tasks in complex 3D environments. This paper provides a comprehensive and structured survey of the field, from its formal task definition to the current state of the art. We establish a methodological taxonomy that charts the technological evolution from early modular and deep learning approaches to contemporary agentic systems driven by large foundation models, including Vision-Language Models (VLMs), Vision-Language-Action (VLA) models, and the emerging integration of generative world models with VLA architectures for physically-grounded reasoning. The survey systematically reviews the ecosystem of essential resources simulators, datasets, and evaluation metrics that facilitates standardized research. Furthermore, we conduct a critical analysis of the primary challenges impeding real-world deployment: the simulation-to-reality gap, robust perception in dynamic outdoor settings, reasoning with linguistic ambiguity, and the efficient deployment of large models on resource-constrained hardware. By synthesizing current benchmarks and limitations, this survey concludes by proposing a forward-looking research roadmap to guide future inquiry into key frontiers such as multi-agent swarm coordination and air-ground collaborative robotics.

Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理