FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models

📄 arXiv: 2505.12835v1 📥 PDF

作者: Hengxing Cai, Jinhan Dong, Jingjun Tan, Jingcheng Deng, Sihang Li, Zhifeng Gao, Haidong Wang, Zicheng Su, Agachai Sumalee, Renxin Zhong

分类: cs.CL, cs.CV

发布日期: 2025-05-19


💡 一句话要点

FlightGPT:基于视觉-语言模型的通用且可解释的无人机视觉-语言导航

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉-语言模型 多模态融合 思维链 强化学习 模仿学习 可解释性 泛化能力

📋 核心要点

  1. 现有无人机视觉-语言导航方法在多模态融合、泛化能力和可解释性方面存在不足,限制了其应用。
  2. FlightGPT利用视觉-语言模型,通过两阶段训练和思维链推理,提升无人机导航的性能和可解释性。
  3. 在CityNav数据集上的实验表明,FlightGPT在未见环境中比现有最佳方法成功率提升了9.22%。

📝 摘要(中文)

无人机视觉-语言导航(UAV VLN)对于灾难响应、物流配送和城市巡检等应用至关重要。然而,现有方法通常在多模态融合不足、泛化能力弱和可解释性差等方面存在问题。为了解决这些挑战,我们提出了FlightGPT,这是一个基于具有强大多模态感知能力的视觉-语言模型(VLM)的新型UAV VLN框架。我们设计了一个两阶段训练流程:首先,使用高质量的演示进行监督微调(SFT),以改善初始化和结构化推理;然后,采用组相对策略优化(GRPO)算法,该算法由一个综合奖励引导,该奖励考虑了目标准确性、推理质量和格式合规性,以增强泛化性和适应性。此外,FlightGPT引入了一种基于思维链(CoT)的推理机制,以提高决策的可解释性。在城市规模数据集CityNav上的大量实验表明,FlightGPT在所有场景中都实现了最先进的性能,在未见环境中比最强的基线提高了9.22%的成功率。我们的实现已公开。

🔬 方法详解

问题定义:现有无人机视觉-语言导航方法在处理复杂环境时,存在多模态信息融合不充分、泛化能力较弱以及决策过程缺乏可解释性的问题。这些问题导致无人机在实际应用中难以应对各种挑战,例如在未知环境中无法准确理解指令并完成导航任务。

核心思路:FlightGPT的核心思路是利用预训练的视觉-语言模型(VLM)强大的多模态感知和推理能力,结合精心设计的训练策略和推理机制,从而提升无人机视觉-语言导航的性能、泛化性和可解释性。通过模仿学习和强化学习相结合的方式,使无人机能够更好地理解指令,并在复杂环境中做出合理的导航决策。

技术框架:FlightGPT框架主要包含以下几个关键模块:1) 视觉-语言模型(VLM):作为核心感知和推理模块,负责处理视觉输入(无人机摄像头图像)和语言指令,并生成导航决策。2) 监督微调(SFT)阶段:利用高质量的导航演示数据,对VLM进行微调,使其更好地适应无人机导航任务。3) 组相对策略优化(GRPO)阶段:使用强化学习算法,进一步提升VLM的泛化能力和适应性,同时考虑目标准确性、推理质量和格式合规性。4) 思维链(CoT)推理机制:引入CoT机制,使VLM在做出导航决策之前,先生成一系列中间推理步骤,从而提高决策的可解释性。

关键创新:FlightGPT的关键创新在于以下几个方面:1) 首次将大规模视觉-语言模型应用于无人机视觉-语言导航任务,充分利用了VLM强大的多模态感知和推理能力。2) 提出了两阶段训练流程(SFT + GRPO),有效地提升了模型的性能和泛化能力。3) 引入了思维链(CoT)推理机制,显著提高了决策的可解释性。

关键设计:在SFT阶段,使用了高质量的导航演示数据,并采用了交叉熵损失函数进行训练。在GRPO阶段,设计了一个综合奖励函数,该函数考虑了目标准确性、推理质量和格式合规性。CoT推理机制通过prompt工程实现,引导VLM生成中间推理步骤。具体的VLM架构和参数设置未在论文中详细说明,可能使用了现有的开源VLM模型,并根据任务需求进行了调整(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FlightGPT在CityNav数据集上取得了显著的性能提升。在未见环境中,FlightGPT的成功率比最强的基线方法提高了9.22%。实验结果表明,FlightGPT在各种场景下均优于现有方法,证明了其有效性和泛化能力。此外,思维链推理机制的引入显著提高了决策的可解释性,使得无人机的导航行为更加透明可信。

🎯 应用场景

FlightGPT在灾难响应、物流配送、城市巡检等领域具有广泛的应用前景。例如,在灾难发生后,无人机可以根据救援人员的语言指令,自主导航到指定地点进行搜索和救援。在物流配送中,无人机可以根据收货地址的描述,安全准确地将包裹送达。在城市巡检中,无人机可以根据巡检任务的指令,自动巡视城市基础设施,及时发现安全隐患。该研究有助于提升无人机在复杂环境下的自主导航能力,推动无人机技术的实际应用。

📄 摘要(原文)

Unmanned Aerial Vehicle (UAV) Vision-and-Language Navigation (VLN) is vital for applications such as disaster response, logistics delivery, and urban inspection. However, existing methods often struggle with insufficient multimodal fusion, weak generalization, and poor interpretability. To address these challenges, we propose FlightGPT, a novel UAV VLN framework built upon Vision-Language Models (VLMs) with powerful multimodal perception capabilities. We design a two-stage training pipeline: first, Supervised Fine-Tuning (SFT) using high-quality demonstrations to improve initialization and structured reasoning; then, Group Relative Policy Optimization (GRPO) algorithm, guided by a composite reward that considers goal accuracy, reasoning quality, and format compliance, to enhance generalization and adaptability. Furthermore, FlightGPT introduces a Chain-of-Thought (CoT)-based reasoning mechanism to improve decision interpretability. Extensive experiments on the city-scale dataset CityNav demonstrate that FlightGPT achieves state-of-the-art performance across all scenarios, with a 9.22\% higher success rate than the strongest baseline in unseen environments. Our implementation is publicly available.