AeroDuo: Aerial Duo for UAV-based Vision and Language Navigation

📄 arXiv: 2508.15232v1 📥 PDF

作者: Ruipu Wu, Yige Zhang, Jinyu Chen, Linjiang Huang, Shifeng Zhang, Xu Zhou, Liang Wang, Si Liu

分类: cs.CV

发布日期: 2025-08-21

备注: Accepted by ACM MM 2025


💡 一句话要点

AeroDuo:提出双无人机协同视觉语言导航框架,解决复杂环境下的无人机导航问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉语言导航 多无人机协同 大语言模型 多模态学习

📋 核心要点

  1. 无人机视觉语言导航(VLN)面临轨迹长、机动性复杂等挑战,导致性能不稳定,需要人工干预或过于详细的指令。
  2. 提出双高度无人机协同VLN(DuAl-VLN)任务,利用高空无人机进行环境推理,低空无人机进行精确定位,实现优势互补。
  3. 构建了HaL-13k数据集,包含协同轨迹和语言指令,并提出了AeroDuo框架,利用大语言模型和轻量级策略实现高效协同导航。

📝 摘要(中文)

本文提出了一种新的任务:双高度无人机协同视觉语言导航(DuAl-VLN),旨在利用无人机的高机动性提供多粒度视角,同时保持可控的运动空间。为此,构建了一个名为HaL-13k的数据集,包含13838条协同的高低空无人机演示轨迹,并配有目标导向的语言指令。该数据集包含未见过的地图和未见过的目标验证集,以系统地评估模型在新环境和不熟悉目标上的泛化能力。此外,还提出了一个双无人机协同VLN框架AeroDuo,其中高空无人机集成多模态大语言模型(Pilot-LLM)进行目标推理,而低空无人机采用轻量级多阶段策略进行导航和目标定位。两个无人机协同工作,仅交换最少的坐标信息以确保效率。

🔬 方法详解

问题定义:现有的无人机视觉语言导航(VLN)方法在复杂户外环境中面临挑战,例如轨迹过长、机动性复杂,导致导航性能不稳定,需要人工干预或过于详细的指令。这些方法难以充分利用无人机的高机动性优势,并且运动空间难以控制。

核心思路:论文的核心思路是引入双无人机协同机制,在高空和低空分别部署无人机。高空无人机负责全局环境推理和目标理解,利用其广阔的视野进行战略规划;低空无人机则负责精确定位和导航,执行高空无人机的指令。通过分工合作,充分发挥无人机的高机动性优势,并降低单个无人机的运动复杂度。

技术框架:AeroDuo框架包含两个主要组成部分:高空无人机和低空无人机。高空无人机集成了多模态大语言模型(Pilot-LLM),用于理解语言指令并进行目标推理,生成导航策略。低空无人机采用轻量级多阶段策略,用于导航和目标定位。两个无人机通过共享少量坐标信息进行协同,避免信息冗余。整体流程是:用户输入语言指令,Pilot-LLM在高空无人机上进行推理,生成导航策略,低空无人机根据策略执行导航,并在必要时与高空无人机进行坐标信息交互。

关键创新:该论文的关键创新在于提出了双无人机协同的VLN框架,将全局环境推理和精确定位任务分配给不同的无人机,从而实现了优势互补。此外,集成了多模态大语言模型(Pilot-LLM)在高空无人机上,增强了目标推理能力。与现有方法相比,AeroDuo能够更好地利用无人机的高机动性,并降低单个无人机的运动复杂度。

关键设计:HaL-13k数据集的设计考虑了未见过的地图和未见过的目标,以评估模型的泛化能力。Pilot-LLM的具体结构和训练方式未知,但强调了其多模态特性。低空无人机的多阶段策略细节未知,但强调了其轻量级特性。两个无人机之间只交换最少的坐标信息,以保证通信效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了HaL-13k数据集,并提出了AeroDuo框架。虽然论文中没有给出具体的性能数据,但强调了AeroDuo框架能够更好地利用无人机的高机动性,并降低单个无人机的运动复杂度。数据集的构建和框架的设计为后续研究提供了基础。

🎯 应用场景

该研究成果可应用于多种场景,例如:灾难救援(快速搜索幸存者)、物流配送(优化配送路线)、环境监测(大范围巡检)等。通过无人机协同,可以提高任务效率和安全性,降低人工成本,并扩展无人机的应用范围。未来,该技术有望在智慧城市、智能交通等领域发挥重要作用。

📄 摘要(原文)

Aerial Vision-and-Language Navigation (VLN) is an emerging task that enables Unmanned Aerial Vehicles (UAVs) to navigate outdoor environments using natural language instructions and visual cues. However, due to the extended trajectories and complex maneuverability of UAVs, achieving reliable UAV-VLN performance is challenging and often requires human intervention or overly detailed instructions. To harness the advantages of UAVs' high mobility, which could provide multi-grained perspectives, while maintaining a manageable motion space for learning, we introduce a novel task called Dual-Altitude UAV Collaborative VLN (DuAl-VLN). In this task, two UAVs operate at distinct altitudes: a high-altitude UAV responsible for broad environmental reasoning, and a low-altitude UAV tasked with precise navigation. To support the training and evaluation of the DuAl-VLN, we construct the HaL-13k, a dataset comprising 13,838 collaborative high-low UAV demonstration trajectories, each paired with target-oriented language instructions. This dataset includes both unseen maps and an unseen object validation set to systematically evaluate the model's generalization capabilities across novel environments and unfamiliar targets. To consolidate their complementary strengths, we propose a dual-UAV collaborative VLN framework, AeroDuo, where the high-altitude UAV integrates a multimodal large language model (Pilot-LLM) for target reasoning, while the low-altitude UAV employs a lightweight multi-stage policy for navigation and target grounding. The two UAVs work collaboratively and only exchange minimal coordinate information to ensure efficiency.