Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models

📄 arXiv: 2604.07705v1 📥 PDF

作者: Xingyu Xia, Lekai Zhou, Yujie Tang, Xiaozhou Zhu, Hai Zhu, Wen Yao

分类: cs.RO

发布日期: 2026-04-09

备注: 28 pages, 8 figures


💡 一句话要点

面向大语言模型的空中机器人视觉-语言导航综述

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空中机器人 视觉-语言导航 无人机 大型语言模型 视觉-语言模型 综述 三维环境

📋 核心要点

  1. 现有Aerial VLN方法在长时程指令理解、视点变化鲁棒性和真实环境适应性方面存在不足。
  2. 本综述深入分析了现有Aerial VLN方法,并根据架构特点划分为五类,总结了各类方法的优缺点。
  3. 本综述指出了Aerial VLN领域七个开放问题,并为未来的研究方向提供了具体建议,例如多无人机集群导航。

📝 摘要(中文)

空中视觉-语言导航(Aerial VLN)旨在使无人机(UAV)能够理解自然语言指令,并通过将语言与视觉感知相结合,自主地在复杂的三维环境中导航。本综述对Aerial VLN领域进行了批判性和分析性的回顾,特别关注了大型语言模型(LLM)和视觉-语言模型(VLM)的最新集成。首先,我们正式介绍了Aerial VLN问题,并定义了两种交互模式:单指令和基于对话,作为基础轴。然后,我们将Aerial VLN方法的主体组织成五个架构类别:序列到序列和基于注意力的方法、端到端LLM/VLM方法、分层方法、多智能体方法和基于对话的导航方法。对于每个类别,我们系统地分析了设计原理、技术权衡和报告的性能。我们批判性地评估了Aerial VLN的评估基础设施,包括数据集、仿真平台和指标,并确定了它们在规模、环境多样性、真实世界基础和指标覆盖方面的差距。我们整合了共享基准上的跨方法比较,并分析了关键的架构权衡,包括离散与连续动作、端到端与分层设计以及仿真到现实的差距。最后,我们综合了七个具体的开放问题:长时程指令对齐、视点鲁棒性、可扩展的空间表示、连续的6-DoF动作执行、机载部署、基准标准化和多无人机集群导航,并根据整个综述中提出的证据提出了具体的研究方向。

🔬 方法详解

问题定义:Aerial VLN旨在使无人机能够理解自然语言指令,并在复杂的三维环境中自主导航。现有方法在处理长时程指令、应对视点变化以及适应真实环境方面存在挑战。此外,评估数据集和指标也存在规模不足、环境多样性不够以及缺乏真实世界数据的问题。

核心思路:本综述的核心思路是对现有Aerial VLN方法进行系统性的分类和分析,并探讨如何利用大型语言模型(LLM)和视觉-语言模型(VLM)来提升Aerial VLN的性能。通过分析不同架构的优缺点,为未来的研究提供指导。

技术框架:本综述将Aerial VLN方法分为五类:序列到序列和基于注意力的方法、端到端LLM/VLM方法、分层方法、多智能体方法和基于对话的导航方法。每种方法都涉及视觉感知、语言理解和运动控制三个关键模块。序列到序列方法通常使用编码器-解码器结构,而端到端LLM/VLM方法则直接利用预训练模型进行导航。分层方法将导航任务分解为多个子任务,多智能体方法则利用多个无人机协同完成任务。基于对话的导航方法则允许用户通过对话与无人机进行交互。

关键创新:本综述的关键创新在于对Aerial VLN领域进行了全面的总结和分析,并特别关注了LLM和VLM在Aerial VLN中的应用。此外,本综述还指出了现有评估基础设施的不足,并提出了未来研究的七个开放问题。

关键设计:本综述没有提出新的算法或模型,而是对现有方法进行了分类和分析。但是,本综述强调了以下关键设计考虑因素:离散与连续动作的选择、端到端与分层设计的权衡、以及仿真到现实的差距。此外,本综述还强调了数据集和评估指标的重要性,并呼吁构建更大规模、更真实的数据集和更全面的评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

本综述对现有Aerial VLN方法进行了全面的比较和分析,并指出了现有方法的局限性。通过对不同架构的优缺点进行评估,为未来的研究提供了有价值的参考。此外,本综述还强调了LLM和VLM在Aerial VLN中的潜力,并提出了七个具体的开放问题,为未来的研究方向提供了指导。

🎯 应用场景

Aerial VLN技术可应用于灾害救援、环境监测、物流运输、安防巡逻等领域。通过赋予无人机理解自然语言指令的能力,可以使其在复杂环境中自主执行任务,提高工作效率和安全性。未来,随着LLM和VLM的不断发展,Aerial VLN技术将在更多领域发挥重要作用。

📄 摘要(原文)

Aerial vision-and-language navigation (Aerial VLN) aims to enable unmanned aerial vehicles (UAVs) to interpret natural language instructions and autonomously navigate complex three-dimensional environments by grounding language in visual perception. This survey provides a critical and analytical review of the Aerial VLN field, with particular attention to the recent integration of large language models (LLMs) and vision-language models (VLMs). We first formally introduce the Aerial VLN problem and define two interaction paradigms: single-instruction and dialog-based, as foundational axes. We then organize the body of Aerial VLN methods into a taxonomy of five architectural categories: sequence-to-sequence and attention-based methods, end-to-end LLM/VLM methods, hierarchical methods, multi-agent methods, and dialog-based navigation methods. For each category, we systematically analyze design rationales, technical trade-offs, and reported performance. We critically assess the evaluation infrastructure for Aerial VLN, including datasets, simulation platforms, and metrics, and identify their gaps in scale, environmental diversity, real-world grounding, and metric coverage. We consolidate cross-method comparisons on shared benchmarks and analyze key architectural trade-offs, including discrete versus continuous actions, end-to-end versus hierarchical designs, and the simulation-to-reality gap. Finally, we synthesize seven concrete open problems: long-horizon instruction grounding, viewpoint robustness, scalable spatial representation, continuous 6-DoF action execution, onboard deployment, benchmark standardization, and multi-UAV swarm navigation, with specific research directions grounded in the evidence presented throughout the survey.