History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation

📄 arXiv: 2512.14222v1 📥 PDF

作者: Xichen Ding, Jianzhe Gao, Cong Pan, Wenguan Wang, Jie Qin

分类: cs.CV, cs.RO

发布日期: 2025-12-16


💡 一句话要点

提出历史增强型两阶段Transformer,解决无人机视觉语言导航中全局推理与局部理解的平衡问题

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 无人机导航 视觉语言导航 Transformer 历史增强 两阶段方法

📋 核心要点

  1. 现有无人机视觉语言导航方法难以平衡全局环境推理和局部场景理解,限制了导航性能。
  2. HETT框架采用粗到精的两阶段导航流程,融合历史信息和视觉分析,提升导航精度。
  3. 实验表明,HETT在改进的CityNav数据集上取得了显著的性能提升,验证了框架的有效性。

📝 摘要(中文)

本文提出了一种历史增强型两阶段Transformer (HETT) 框架,用于解决无人机视觉语言导航 (AVLN) 问题。该框架通过粗到精的导航流程,整合了全局环境推理和局部场景理解。HETT首先融合空间地标和历史上下文,预测粗粒度的目标位置,然后通过细粒度的视觉分析来优化动作。此外,设计了一个历史网格地图,动态地将视觉特征聚合到结构化的空间记忆中,从而增强全面的场景感知。同时,手动优化了CityNav数据集的标注,以提高数据质量。在改进后的CityNav数据集上的实验表明,HETT 实现了显著的性能提升,并且大量的消融研究进一步验证了每个组件的有效性。

🔬 方法详解

问题定义:无人机视觉语言导航(AVLN)任务要求无人机根据自然语言指令在大型城市环境中定位目标。现有方法通常采用单一粒度的框架,难以同时兼顾全局环境的推理和局部场景的理解,导致导航性能受限。这些方法无法有效地利用历史信息,并且在视觉特征的聚合方面存在不足。

核心思路:本文的核心思路是通过一个两阶段的粗到精的导航流程,将全局环境推理和局部场景理解相结合。首先,利用历史信息和空间地标进行粗粒度的目标位置预测,然后在粗略位置的基础上,通过细粒度的视觉分析来优化导航动作。这种分阶段的方法能够更好地平衡全局和局部的信息,提高导航的准确性。

技术框架:HETT框架包含两个主要阶段:粗粒度目标位置预测和细粒度动作优化。在粗粒度阶段,框架融合空间地标和历史上下文信息,预测目标的大致位置。历史上下文通过历史网格地图进行编码,该地图动态地聚合视觉特征,形成结构化的空间记忆。在细粒度阶段,框架利用视觉分析模块,对粗粒度预测的位置进行精细调整,从而优化导航动作。

关键创新:HETT框架的关键创新在于历史增强和两阶段导航。历史增强通过历史网格地图动态聚合视觉特征,形成结构化的空间记忆,从而增强了场景感知能力。两阶段导航流程允许框架首先进行粗粒度的全局推理,然后再进行细粒度的局部理解,从而更好地平衡了全局和局部的信息。

关键设计:历史网格地图的设计是关键的技术细节。该地图将环境划分为网格,并将每个网格内的视觉特征进行聚合,形成空间记忆。具体实现细节(例如网格大小、特征聚合方式等)未知。损失函数和网络结构等其他技术细节在论文中可能有所描述,但摘要中未提及。

📊 实验亮点

HETT框架在改进后的CityNav数据集上取得了显著的性能提升。具体性能数据和对比基线在摘要中未给出,但强调了HETT相对于现有方法的显著优势。消融实验验证了历史增强和两阶段导航等关键组件的有效性。

🎯 应用场景

该研究成果可应用于无人机自主导航、智能安防、城市管理等领域。通过提升无人机在复杂环境下的导航能力,可以实现更高效的巡检、监控和物流服务。未来,该技术有望应用于更广泛的机器人导航领域,例如自动驾驶、家庭服务机器人等。

📄 摘要(原文)

Aerial Vision-and-Language Navigation (AVLN) requires Unmanned Aerial Vehicle (UAV) agents to localize targets in large-scale urban environments based on linguistic instructions. While successful navigation demands both global environmental reasoning and local scene comprehension, existing UAV agents typically adopt mono-granularity frameworks that struggle to balance these two aspects. To address this limitation, this work proposes a History-Enhanced Two-Stage Transformer (HETT) framework, which integrates the two aspects through a coarse-to-fine navigation pipeline. Specifically, HETT first predicts coarse-grained target positions by fusing spatial landmarks and historical context, then refines actions via fine-grained visual analysis. In addition, a historical grid map is designed to dynamically aggregate visual features into a structured spatial memory, enhancing comprehensive scene awareness. Additionally, the CityNav dataset annotations are manually refined to enhance data quality. Experiments on the refined CityNav dataset show that HETT delivers significant performance gains, while extensive ablation studies further verify the effectiveness of each component.