ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

作者: Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin

分类: cs.CV, cs.AI

发布日期: 2026-03-09

备注: 8 pages

💡 一句话要点

提出ViSA框架，增强视觉空间推理，提升无人机视觉语言导航性能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉语言导航 视觉空间推理 视觉语言模型 结构化提示

📋 核心要点

现有无人机VLN方法依赖检测和规划，空间推理能力不足，易受语言歧义影响。
ViSA框架通过结构化视觉提示，使VLMs直接在图像平面上推理，无需额外训练。
实验表明，ViSA框架在CityNav基准上成功率提升70.3%，性能显著优于SOTA方法。

📝 摘要（中文）

现有的无人机视觉语言导航(VLN)方法主要采用检测和规划的流程，将开放词汇检测转换为离散的文本场景图。这些方法受到空间推理能力不足和固有语言歧义的困扰。为了解决这些瓶颈，我们提出了一个视觉空间推理(ViSA)增强的无人机VLN框架。具体来说，设计了一个三阶段的协作架构，利用结构化的视觉提示，使视觉语言模型(VLMs)能够在图像平面上直接进行推理，而无需额外的训练或复杂的中间表示。在CityNav基准上的综合评估表明，与完全训练的最先进(SOTA)方法相比，ViSA增强的VLN在成功率方面提高了70.3%，阐明了其作为无人机VLN系统骨干的巨大潜力。

🔬 方法详解

问题定义：现有的无人机视觉语言导航（VLN）方法通常采用“检测-规划”的pipeline，即将视觉输入转化为离散的文本场景图。这种方法的痛点在于空间推理能力较弱，难以准确理解指令中的空间关系，并且容易受到语言歧义的影响，导致导航失败。

核心思路：论文的核心思路是利用视觉语言模型（VLMs）强大的视觉理解能力，直接在图像平面上进行推理，避免中间表示带来的信息损失和误差累积。通过结构化的视觉提示，引导VLMs关注图像中的关键区域和空间关系，从而增强其空间推理能力。

技术框架：ViSA框架采用三阶段的协作架构。第一阶段是视觉提示生成阶段，利用预训练模型提取图像特征，并生成结构化的视觉提示。第二阶段是视觉语言推理阶段，将视觉提示和语言指令输入到VLMs中，进行视觉空间推理，预测下一步的行动。第三阶段是行动执行阶段，根据VLMs的预测结果，控制无人机执行相应的动作。

关键创新：ViSA框架的关键创新在于引入了结构化的视觉提示，使得VLMs能够在图像平面上直接进行推理，而无需额外的训练或复杂的中间表示。这种方法避免了传统方法中信息损失和误差累积的问题，显著提升了无人机VLN的性能。此外，该框架无需对VLMs进行微调，具有良好的通用性和可扩展性。

关键设计：视觉提示的具体形式未知，但强调了“结构化”，可能包含目标检测框、分割掩码、深度信息等，用于引导VLMs关注图像中的关键区域和空间关系。论文中提到该框架无需额外训练，意味着视觉提示的设计需要与VLMs的输入格式兼容。损失函数和网络结构等细节未在摘要中提及，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ViSA框架在CityNav基准上取得了显著的性能提升，成功率比最先进的方法提高了70.3%。这一结果表明，ViSA框架能够有效增强无人机的视觉空间推理能力，显著提升无人机VLN的性能。该框架无需额外训练，具有良好的通用性和可扩展性。

🎯 应用场景

该研究成果可应用于无人机自主导航、智能巡检、搜索救援等领域。通过提升无人机对复杂环境和自然语言指令的理解能力，可以实现更安全、更高效的无人机作业。未来，该技术有望扩展到其他机器人平台，例如地面机器人和水下机器人，实现更广泛的应用。

📄 摘要（原文）

Existing aerial Vision-Language Navigation (VLN) methods predominantly adopt a detection-and-planning pipeline, which converts open-vocabulary detections into discrete textual scene graphs. These approaches are plagued by inadequate spatial reasoning capabilities and inherent linguistic ambiguities. To address these bottlenecks, we propose a Visual-Spatial Reasoning (ViSA) enhanced framework for aerial VLN. Specifically, a triple-phase collaborative architecture is designed to leverage structured visual prompting, enabling Vision-Language Models (VLMs) to perform direct reasoning on image planes without the need for additional training or complex intermediate representations. Comprehensive evaluations on the CityNav benchmark demonstrate that the ViSA-enhanced VLN achieves a 70.3\% improvement in success rate compared to the fully trained state-of-the-art (SOTA) method, elucidating its great potential as a backbone for aerial VLN systems.

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理