AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations
作者: Junli Liu, Qizhi Chen, Zhigang Wang, Yiwen Tang, Yiting Zhang, Chi Yan, Dong Wang, Xuelong Li, Bin Zhao
分类: cs.CV, cs.AI
发布日期: 2025-04-10 (更新: 2025-10-08)
备注: 8 pages, 6 figures
💡 一句话要点
提出AerialVG数据集和模型,解决航空影像视觉定位中空间关系推理难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 航空影像 视觉定位 空间关系推理 分层注意力 关系感知 数据集 无人机遥感
📋 核心要点
- 传统视觉定位在航空影像中面临挑战,外观相似对象难以区分,空间关系推理至关重要。
- 提出分层交叉注意力和关系感知定位模块,增强模型对目标区域的关注和空间关系的理解。
- 实验结果表明,该方法在AerialVG数据集上有效,验证了空间推理在航空视觉定位中的重要性。
📝 摘要(中文)
本文提出AerialVG,一项专注于航空影像视觉定位的新任务。与传统视觉定位相比,AerialVG面临新的挑战,例如,基于外观的定位不足以区分多个视觉上相似的对象,并且应强调位置关系。此外,现有的视觉定位模型在应用于航空影像时会遇到困难,因为高分辨率图像会导致显著的计算负担。为了应对这些挑战,我们引入了第一个AerialVG数据集,其中包含5K真实世界的航空图像、50K手动注释的描述和103K个对象。特别是,AerialVG数据集中的每个注释都包含多个带有相对空间关系的目标对象,要求模型执行全面的空间推理。此外,我们提出了一种专门针对AerialVG任务的创新模型,其中设计了一种分层交叉注意力机制来关注目标区域,并设计了一个关系感知定位模块来推断位置关系。实验结果验证了我们的数据集和方法的有效性,突出了空间推理在航空视觉定位中的重要性。代码和数据集将会开源。
🔬 方法详解
问题定义:现有的视觉定位方法在航空影像中表现不佳,主要原因是航空影像中存在大量外观相似的物体,仅依靠外观特征难以区分。此外,航空影像通常包含复杂的空间关系,例如“A在B的左边”,现有方法缺乏对这些空间关系的有效建模能力。高分辨率的航空影像也给现有模型的计算带来了挑战。
核心思路:本文的核心思路是强调空间关系在航空影像视觉定位中的重要性。通过设计专门的模块来学习和推理物体之间的空间关系,从而提高定位的准确性。同时,采用分层交叉注意力机制来关注图像中的目标区域,减少无关信息的干扰。
技术框架:整体框架包含两个主要模块:分层交叉注意力模块和关系感知定位模块。首先,分层交叉注意力模块用于提取图像和文本描述中的相关特征,并关注图像中的目标区域。然后,关系感知定位模块利用提取的特征来推断物体之间的空间关系,并最终定位目标物体。
关键创新:最重要的技术创新点在于关系感知定位模块的设计。该模块能够显式地建模物体之间的空间关系,并利用这些关系来提高定位的准确性。与现有方法相比,该模块能够更好地理解文本描述中的空间信息,并将其与图像中的物体对应起来。
关键设计:分层交叉注意力模块采用多层Transformer结构,每一层都包含自注意力和交叉注意力机制。关系感知定位模块使用图神经网络来建模物体之间的空间关系,节点表示物体,边表示物体之间的空间关系。损失函数包括定位损失和关系预测损失,用于优化模型的定位准确性和关系推理能力。
🖼️ 关键图片
📊 实验亮点
论文提出了新的AerialVG数据集,包含5K张航空图像和50K条文本描述,为航空视觉定位研究提供了基准。提出的模型在AerialVG数据集上取得了显著的性能提升,验证了空间关系推理的有效性。具体性能数据和对比基线将在论文中详细展示。
🎯 应用场景
该研究成果可应用于无人机遥感图像分析、智能交通监控、城市规划等领域。例如,在无人机巡检中,可以通过自然语言描述快速定位目标建筑物或设施。在智能交通监控中,可以根据描述定位特定车辆或交通事件。该研究有助于提高航空影像分析的自动化程度和智能化水平。
📄 摘要(原文)
Visual grounding (VG) aims to localize target objects in an image based on natural language descriptions. In this paper, we propose AerialVG, a new task focusing on visual grounding from aerial views. Compared to traditional VG, AerialVG poses new challenges, \emph{e.g.}, appearance-based grounding is insufficient to distinguish among multiple visually similar objects, and positional relations should be emphasized. Besides, existing VG models struggle when applied to aerial imagery, where high-resolution images cause significant difficulties. To address these challenges, we introduce the first AerialVG dataset, consisting of 5K real-world aerial images, 50K manually annotated descriptions, and 103K objects. Particularly, each annotation in AerialVG dataset contains multiple target objects annotated with relative spatial relations, requiring models to perform comprehensive spatial reasoning. Furthermore, we propose an innovative model especially for the AerialVG task, where a Hierarchical Cross-Attention is devised to focus on target regions, and a Relation-Aware Grounding module is designed to infer positional relations. Experimental results validate the effectiveness of our dataset and method, highlighting the importance of spatial reasoning in aerial visual grounding. The code and dataset will be released.