ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

📄 arXiv: 2603.08007v1 📥 PDF

作者: Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin

分类: cs.CV, cs.AI

发布日期: 2026-03-09

备注: 8 pages


💡 一句话要点

提出ViSA框架,增强视觉空间推理,提升无人机视觉语言导航性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉语言导航 视觉空间推理 视觉语言模型 结构化提示

📋 核心要点

  1. 现有无人机VLN方法依赖检测和规划,空间推理能力不足,易受语言歧义影响。
  2. ViSA框架通过结构化视觉提示,使VLMs直接在图像平面上推理,无需额外训练。
  3. 实验表明,ViSA框架在CityNav基准上成功率提升70.3%,性能显著优于SOTA方法。

📝 摘要(中文)

现有的无人机视觉语言导航(VLN)方法主要采用检测和规划的流程,将开放词汇检测转换为离散的文本场景图。这些方法受到空间推理能力不足和固有语言歧义的困扰。为了解决这些瓶颈,我们提出了一个视觉空间推理(ViSA)增强的无人机VLN框架。具体来说,设计了一个三阶段的协作架构,利用结构化的视觉提示,使视觉语言模型(VLMs)能够在图像平面上直接进行推理,而无需额外的训练或复杂的中间表示。在CityNav基准上的综合评估表明,与完全训练的最先进(SOTA)方法相比,ViSA增强的VLN在成功率方面提高了70.3%,阐明了其作为无人机VLN系统骨干的巨大潜力。

🔬 方法详解

问题定义:现有的无人机视觉语言导航(VLN)方法通常采用“检测-规划”的pipeline,即将视觉输入转化为离散的文本场景图。这种方法的痛点在于空间推理能力较弱,难以准确理解指令中的空间关系,并且容易受到语言歧义的影响,导致导航失败。

核心思路:论文的核心思路是利用视觉语言模型(VLMs)强大的视觉理解能力,直接在图像平面上进行推理,避免中间表示带来的信息损失和误差累积。通过结构化的视觉提示,引导VLMs关注图像中的关键区域和空间关系,从而增强其空间推理能力。

技术框架:ViSA框架采用三阶段的协作架构。第一阶段是视觉提示生成阶段,利用预训练模型提取图像特征,并生成结构化的视觉提示。第二阶段是视觉语言推理阶段,将视觉提示和语言指令输入到VLMs中,进行视觉空间推理,预测下一步的行动。第三阶段是行动执行阶段,根据VLMs的预测结果,控制无人机执行相应的动作。

关键创新:ViSA框架的关键创新在于引入了结构化的视觉提示,使得VLMs能够在图像平面上直接进行推理,而无需额外的训练或复杂的中间表示。这种方法避免了传统方法中信息损失和误差累积的问题,显著提升了无人机VLN的性能。此外,该框架无需对VLMs进行微调,具有良好的通用性和可扩展性。

关键设计:视觉提示的具体形式未知,但强调了“结构化”,可能包含目标检测框、分割掩码、深度信息等,用于引导VLMs关注图像中的关键区域和空间关系。论文中提到该框架无需额外训练,意味着视觉提示的设计需要与VLMs的输入格式兼容。损失函数和网络结构等细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ViSA框架在CityNav基准上取得了显著的性能提升,成功率比最先进的方法提高了70.3%。这一结果表明,ViSA框架能够有效增强无人机的视觉空间推理能力,显著提升无人机VLN的性能。该框架无需额外训练,具有良好的通用性和可扩展性。

🎯 应用场景

该研究成果可应用于无人机自主导航、智能巡检、搜索救援等领域。通过提升无人机对复杂环境和自然语言指令的理解能力,可以实现更安全、更高效的无人机作业。未来,该技术有望扩展到其他机器人平台,例如地面机器人和水下机器人,实现更广泛的应用。

📄 摘要(原文)

Existing aerial Vision-Language Navigation (VLN) methods predominantly adopt a detection-and-planning pipeline, which converts open-vocabulary detections into discrete textual scene graphs. These approaches are plagued by inadequate spatial reasoning capabilities and inherent linguistic ambiguities. To address these bottlenecks, we propose a Visual-Spatial Reasoning (ViSA) enhanced framework for aerial VLN. Specifically, a triple-phase collaborative architecture is designed to leverage structured visual prompting, enabling Vision-Language Models (VLMs) to perform direct reasoning on image planes without the need for additional training or complex intermediate representations. Comprehensive evaluations on the CityNav benchmark demonstrate that the ViSA-enhanced VLN achieves a 70.3\% improvement in success rate compared to the fully trained state-of-the-art (SOTA) method, elucidating its great potential as a backbone for aerial VLN systems.