Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models

作者: Xingyu Xia, Lekai Zhou, Yujie Tang, Xiaozhou Zhu, Hai Zhu, Wen Yao

分类: cs.RO

发布日期: 2026-04-09

备注: 28 pages, 8 figures

💡 一句话要点

面向大语言模型的空中机器人视觉-语言导航综述

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 空中机器人 视觉-语言导航 无人机 大型语言模型 视觉-语言模型 综述 三维环境

📋 核心要点

现有Aerial VLN方法在长时程指令理解、视点变化鲁棒性和真实环境适应性方面存在不足。
本综述深入分析了现有Aerial VLN方法，并根据架构特点划分为五类，总结了各类方法的优缺点。
本综述指出了Aerial VLN领域七个开放问题，并为未来的研究方向提供了具体建议，例如多无人机集群导航。

📝 摘要（中文）

空中视觉-语言导航(Aerial VLN)旨在使无人机(UAV)能够理解自然语言指令，并通过将语言与视觉感知相结合，自主地在复杂的三维环境中导航。本综述对Aerial VLN领域进行了批判性和分析性的回顾，特别关注了大型语言模型(LLM)和视觉-语言模型(VLM)的最新集成。首先，我们正式介绍了Aerial VLN问题，并定义了两种交互模式：单指令和基于对话，作为基础轴。然后，我们将Aerial VLN方法的主体组织成五个架构类别：序列到序列和基于注意力的方法、端到端LLM/VLM方法、分层方法、多智能体方法和基于对话的导航方法。对于每个类别，我们系统地分析了设计原理、技术权衡和报告的性能。我们批判性地评估了Aerial VLN的评估基础设施，包括数据集、仿真平台和指标，并确定了它们在规模、环境多样性、真实世界基础和指标覆盖方面的差距。我们整合了共享基准上的跨方法比较，并分析了关键的架构权衡，包括离散与连续动作、端到端与分层设计以及仿真到现实的差距。最后，我们综合了七个具体的开放问题：长时程指令对齐、视点鲁棒性、可扩展的空间表示、连续的6-DoF动作执行、机载部署、基准标准化和多无人机集群导航，并根据整个综述中提出的证据提出了具体的研究方向。

🔬 方法详解

问题定义：Aerial VLN旨在使无人机能够理解自然语言指令，并在复杂的三维环境中自主导航。现有方法在处理长时程指令、应对视点变化以及适应真实环境方面存在挑战。此外，评估数据集和指标也存在规模不足、环境多样性不够以及缺乏真实世界数据的问题。

核心思路：本综述的核心思路是对现有Aerial VLN方法进行系统性的分类和分析，并探讨如何利用大型语言模型(LLM)和视觉-语言模型(VLM)来提升Aerial VLN的性能。通过分析不同架构的优缺点，为未来的研究提供指导。

技术框架：本综述将Aerial VLN方法分为五类：序列到序列和基于注意力的方法、端到端LLM/VLM方法、分层方法、多智能体方法和基于对话的导航方法。每种方法都涉及视觉感知、语言理解和运动控制三个关键模块。序列到序列方法通常使用编码器-解码器结构，而端到端LLM/VLM方法则直接利用预训练模型进行导航。分层方法将导航任务分解为多个子任务，多智能体方法则利用多个无人机协同完成任务。基于对话的导航方法则允许用户通过对话与无人机进行交互。

关键创新：本综述的关键创新在于对Aerial VLN领域进行了全面的总结和分析，并特别关注了LLM和VLM在Aerial VLN中的应用。此外，本综述还指出了现有评估基础设施的不足，并提出了未来研究的七个开放问题。

关键设计：本综述没有提出新的算法或模型，而是对现有方法进行了分类和分析。但是，本综述强调了以下关键设计考虑因素：离散与连续动作的选择、端到端与分层设计的权衡、以及仿真到现实的差距。此外，本综述还强调了数据集和评估指标的重要性，并呼吁构建更大规模、更真实的数据集和更全面的评估指标。

🖼️ 关键图片

📊 实验亮点

本综述对现有Aerial VLN方法进行了全面的比较和分析，并指出了现有方法的局限性。通过对不同架构的优缺点进行评估，为未来的研究提供了有价值的参考。此外，本综述还强调了LLM和VLM在Aerial VLN中的潜力，并提出了七个具体的开放问题，为未来的研究方向提供了指导。

🎯 应用场景

Aerial VLN技术可应用于灾害救援、环境监测、物流运输、安防巡逻等领域。通过赋予无人机理解自然语言指令的能力，可以使其在复杂环境中自主执行任务，提高工作效率和安全性。未来，随着LLM和VLM的不断发展，Aerial VLN技术将在更多领域发挥重要作用。

📄 摘要（原文）

Aerial vision-and-language navigation (Aerial VLN) aims to enable unmanned aerial vehicles (UAVs) to interpret natural language instructions and autonomously navigate complex three-dimensional environments by grounding language in visual perception. This survey provides a critical and analytical review of the Aerial VLN field, with particular attention to the recent integration of large language models (LLMs) and vision-language models (VLMs). We first formally introduce the Aerial VLN problem and define two interaction paradigms: single-instruction and dialog-based, as foundational axes. We then organize the body of Aerial VLN methods into a taxonomy of five architectural categories: sequence-to-sequence and attention-based methods, end-to-end LLM/VLM methods, hierarchical methods, multi-agent methods, and dialog-based navigation methods. For each category, we systematically analyze design rationales, technical trade-offs, and reported performance. We critically assess the evaluation infrastructure for Aerial VLN, including datasets, simulation platforms, and metrics, and identify their gaps in scale, environmental diversity, real-world grounding, and metric coverage. We consolidate cross-method comparisons on shared benchmarks and analyze key architectural trade-offs, including discrete versus continuous actions, end-to-end versus hierarchical designs, and the simulation-to-reality gap. Finally, we synthesize seven concrete open problems: long-horizon instruction grounding, viewpoint robustness, scalable spatial representation, continuous 6-DoF action execution, onboard deployment, benchmark standardization, and multi-UAV swarm navigation, with specific research directions grounded in the evidence presented throughout the survey.

Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理