LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration

📄 arXiv: 2512.22010v1 📥 PDF

作者: Wen Jiang, Li Wang, Kangyao Huang, Wei Fan, Jinyuan Liu, Shaoyu Liu, Hongwei Duan, Bin Xu, Xiangyang Ji

分类: cs.CV, cs.AI

发布日期: 2025-12-26


💡 一句话要点

LongFly:提出时空上下文整合框架,解决无人机长程视觉-语言导航问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉-语言导航 时空上下文建模 长程导航 多模态融合

📋 核心要点

  1. 现有无人机视觉-语言导航方法难以有效建模长程时空上下文,导致语义对齐不准确和路径规划不稳定。
  2. LongFly通过历史感知时空建模策略,将历史数据转换为结构化表示,并结合提示引导的多模态融合模块。
  3. 实验结果表明,LongFly在成功率和成功率(按路径长度加权)方面均优于现有方法,且在不同环境中表现稳定。

📝 摘要(中文)

本文提出LongFly,一个用于长程无人机视觉-语言导航(VLN)的时空上下文建模框架。无人机在灾后搜救等应用中至关重要,但面临信息密度高、视角快速变化和动态结构等挑战,尤其是在长程导航中。现有无人机VLN方法难以对复杂环境中的长程时空上下文进行建模,导致语义对齐不准确和路径规划不稳定。LongFly提出了一种历史感知时空建模策略,将碎片化和冗余的历史数据转换为结构化、紧凑和富有表现力的表示。首先,提出了基于槽位的历史图像压缩模块,动态地将多视角历史观测提炼为固定长度的上下文表示。然后,引入时空轨迹编码模块来捕获无人机轨迹的时间动态和空间结构。最后,为了将现有的时空上下文与当前的观测相结合,设计了提示引导的多模态融合模块,以支持基于时间的推理和鲁棒的航点预测。实验结果表明,LongFly在成功率方面比最先进的无人机VLN基线高出7.89%,在成功率(按路径长度加权)方面高出6.33%,在已见和未见环境中均表现出一致的性能。

🔬 方法详解

问题定义:论文旨在解决无人机在长程视觉-语言导航任务中,由于环境复杂、信息密度高以及视角快速变化等因素,导致现有方法难以有效建模长程时空上下文,从而影响导航准确性和稳定性的问题。现有方法无法充分利用历史观测信息,导致语义对齐不准确,路径规划不稳定。

核心思路:论文的核心思路是构建一个能够有效整合历史时空信息的框架。通过将碎片化和冗余的历史数据转换为结构化、紧凑且富有表现力的表示,从而更好地理解环境并进行准确的路径规划。核心在于利用历史信息增强当前决策的可靠性。

技术框架:LongFly框架主要包含三个模块:1) 基于槽位的历史图像压缩模块:用于动态地将多视角历史观测提炼为固定长度的上下文表示。2) 时空轨迹编码模块:用于捕获无人机轨迹的时间动态和空间结构。3) 提示引导的多模态融合模块:用于将现有的时空上下文与当前的观测相结合,支持基于时间的推理和鲁棒的航点预测。整体流程是从历史图像中提取信息,编码轨迹,然后与当前观测融合进行导航决策。

关键创新:论文的关键创新在于提出了一个完整的时空上下文建模框架,该框架能够有效地整合历史观测信息和轨迹信息,并将其与当前观测相结合。具体来说,基于槽位的历史图像压缩模块和时空轨迹编码模块的设计是关键创新点,它们能够有效地提取和表示历史信息。提示引导的多模态融合模块则实现了历史信息与当前观测的有效融合。

关键设计:基于槽位的历史图像压缩模块采用动态蒸馏的方式,将多视角历史观测压缩为固定长度的上下文表示,具体实现方式未知。时空轨迹编码模块的设计细节未知,但其目标是捕获无人机轨迹的时间动态和空间结构。提示引导的多模态融合模块利用提示信息来指导多模态信息的融合,具体实现方式未知。损失函数和网络结构等细节也未在摘要中提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LongFly在成功率方面比最先进的无人机VLN基线高出7.89%,在成功率(按路径长度加权)方面高出6.33%,并且在已见和未见环境中均表现出一致的性能。这些数据表明LongFly在长程无人机视觉-语言导航任务中具有显著的优势。

🎯 应用场景

LongFly框架可应用于灾后搜救、环境监测、智能巡检等领域。通过提升无人机在复杂环境下的导航能力,可以更高效地完成搜索、定位、监测等任务,具有重要的实际应用价值。未来,该技术有望进一步拓展到其他需要长程自主导航的无人机应用场景。

📄 摘要(原文)

Unmanned aerial vehicles (UAVs) are crucial tools for post-disaster search and rescue, facing challenges such as high information density, rapid changes in viewpoint, and dynamic structures, especially in long-horizon navigation. However, current UAV vision-and-language navigation(VLN) methods struggle to model long-horizon spatiotemporal context in complex environments, resulting in inaccurate semantic alignment and unstable path planning. To this end, we propose LongFly, a spatiotemporal context modeling framework for long-horizon UAV VLN. LongFly proposes a history-aware spatiotemporal modeling strategy that transforms fragmented and redundant historical data into structured, compact, and expressive representations. First, we propose the slot-based historical image compression module, which dynamically distills multi-view historical observations into fixed-length contextual representations. Then, the spatiotemporal trajectory encoding module is introduced to capture the temporal dynamics and spatial structure of UAV trajectories. Finally, to integrate existing spatiotemporal context with current observations, we design the prompt-guided multimodal integration module to support time-based reasoning and robust waypoint prediction. Experimental results demonstrate that LongFly outperforms state-of-the-art UAV VLN baselines by 7.89\% in success rate and 6.33\% in success weighted by path length, consistently across both seen and unseen environments.