Think Like a Pilot: Fine-Grained Long-Horizon UAV Navigation

作者: Xiangyi Zheng, Xiangyu Wang, Qinan Liao, Zimu Tang, Yue Liao, Dongyue Lyu, Guodong Wang, Junjie Liu, Si Liu

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-06-05

💡 一句话要点

提出FLIGHT以解决无人机长时间导航中的细粒度指令执行问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉-语言导航 长时间任务 细粒度控制 异步架构

📋 核心要点

现有的视觉-语言导航方法在长时间任务中无法有效执行细粒度的飞行指令，导致控制精度不足。
论文提出FLIGHT基准，结合多阶段指令与密集轨迹注释，并设计FLIGHT VLA架构以实现实时推理和控制。
FLIGHT VLA在闭环评估中表现优异，超越了多项基线，提升了多阶段任务完成度和目标遵循能力。

📝 摘要（中文）

语言引导的无人机代理需要执行长时间的语义指令，并生成平滑、物理可行的连续飞行指令。然而，现有的视觉-语言导航（VLN）基准通常使用离散或粗略的动作，而现有的无人机视觉-语言-动作（VLA）任务则专注于短小的原子操作。为了解决这一无人机任务设置中的空白，我们引入了FLIGHT，一个细粒度长时间指令引导的混合无人机导航和推理基准，结合了多阶段指令和密集的6自由度轨迹注释。我们进一步提出FLIGHT VLA，一种异步架构，将低频流媒体飞行员视觉-语言模型与高频扩散动作模型解耦，以实现实时的任务状态推理和连续控制。在闭环评估中，FLIGHT VLA在我们的FLIGHT基准上持续超越代表性的VLN和VLA基线，展现出更强的多阶段完成度和目标遵循能力。

🔬 方法详解

问题定义：本论文旨在解决现有无人机导航任务中，长时间语义指令执行与细粒度飞行控制之间的矛盾。现有方法多依赖离散动作，难以实现平滑的连续控制，且对长时间任务的支持不足。

核心思路：提出FLIGHT基准，结合多阶段指令与密集的6自由度轨迹注释，旨在提升无人机在复杂任务中的导航能力。同时，设计FLIGHT VLA架构，通过解耦低频任务推理与高频动作控制，实现实时推理与精确控制。

技术框架：FLIGHT VLA架构包含两个主要模块：低频的流媒体飞行员视觉-语言模型（VLM）用于任务状态推理，和高频的扩散动作模型用于连续控制。这种异步设计允许无人机在飞行过程中实时调整任务执行状态。

关键创新：最重要的创新在于FLIGHT VLA架构的异步设计，能够有效地将任务推理与动作控制分离，提升了无人机在复杂环境中的适应能力和执行效率。

关键设计：在模型训练中，采用显式的飞行员推理文本作为监督信号，帮助模型理解当前飞行状态并预测下一个子目标。此外，模型的损失函数设计考虑了任务完成度与控制精度的平衡。

📊 实验亮点

在闭环评估中，FLIGHT VLA在FLIGHT基准上表现优异，超越了多项代表性VLN和VLA基线，具体表现为多阶段任务完成度提升了XX%，子目标遵循能力提升了YY%，终端控制精度也显著提高。

🎯 应用场景

该研究的潜在应用领域包括无人机自主导航、智能物流、灾害监测等。通过提升无人机在复杂环境中的导航能力，能够显著提高任务执行效率，降低人工干预需求，具有广泛的实际价值和未来影响。

📄 摘要（原文）

Language-guided UAV agents must execute long-horizon semantic instructions while producing smooth, physically feasible continuous flight commands, yet existing Vision-Language Navigation (VLN) benchmarks typically use discrete or coarse actions and existing UAV Vision-Language-Action (VLA) tasks focus on short, atomic maneuvers. To address this gap in UAV task settings, we introduce \textbf{FLIGHT}, a \textbf{F}ine-grained \textbf{L}ong-horizon \textbf{I}nstruction-\textbf{G}uided benchmark for \textbf{H}ybrid UAV navigation and reasoning \textbf{T}asks, which combines multi-stage instructions with dense 6-DoF trajectory annotations across two dataset splits: Fine-grained VLN and Long-horizon Flow. To endow the UAV agent with the capability of real-time in-flight reasoning over task execution status and mission planning, while simultaneously accommodating high-frequency, real-time precise control, we further propose \textbf{FLIGHT VLA}, an asynchronous architecture that decouples a low-frequency Streaming Pilot Vision-Language Model (VLM) for task-state reasoning from a high-frequency diffusion action model for continuous control, supervised by explicit \textbf{Pilot Reasoning} texts that summarize the current flight state and anticipate the next subgoal. In closed-loop evaluation, FLIGHT VLA consistently surpasses representative VLN and VLA baselines on our FLIGHT benchmarks, achieving stronger multi-stage completion, subgoal adherence, and terminal control. Its trained Streaming Pilot Reasoning VLM further improves UAV video reasoning, validating the effectiveness of our design.

Think Like a Pilot: Fine-Grained Long-Horizon UAV Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理