MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

📄 arXiv: 2503.24219v1 📥 PDF

作者: Karim Radouane, Hanane Azzag, Mustapha lebbah

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.MM

发布日期: 2025-03-31

🔗 代码/项目: GITHUB


💡 一句话要点

提出MB-ORES,用于遥感图像中基于多分支对象推理的视觉定位

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 视觉定位 目标检测 多分支网络 对象推理 图神经网络 深度学习

📋 核心要点

  1. 现有遥感图像视觉定位方法缺乏有效融合空间、视觉和类别信息的能力,限制了定位精度。
  2. MB-ORES通过多分支网络融合多种特征,并利用对象推理网络进行概率分配和软选择,提升定位性能。
  3. 实验表明,MB-ORES在OPT-RSVG和DIOR-RSVG数据集上显著优于现有方法,同时保持了目标检测能力。

📝 摘要(中文)

本文提出了一种统一的框架,集成了目标检测(OD)和视觉定位(VG)技术,用于遥感(RS)图像处理。为了支持传统的目标检测并为视觉定位任务建立直观的先验,我们使用指代表达式数据对开放集目标检测器进行微调,将其构建为一个部分监督的目标检测任务。在第一阶段,我们构建每个图像的图表示,包括对象查询、类别嵌入和提议位置。然后,我们提出的任务感知架构处理该图以执行视觉定位任务。该模型包括:(i)一个多分支网络,集成了空间、视觉和类别特征以生成任务感知提议;(ii)一个对象推理网络,用于分配提议的概率,然后使用软选择机制进行最终的指代对象定位。我们的模型在OPT-RSVG和DIOR-RSVG数据集上表现出卓越的性能,与最先进的方法相比实现了显着改进,同时保留了经典的目标检测能力。代码将在我们的存储库中提供。

🔬 方法详解

问题定义:遥感图像中的视觉定位(VG)旨在根据给定的自然语言描述,在图像中定位目标对象。现有方法通常难以有效融合空间、视觉和类别信息,导致定位精度受限。此外,如何在视觉定位的同时保持传统目标检测(OD)能力也是一个挑战。

核心思路:MB-ORES的核心思路是构建一个多分支网络,分别提取和融合空间、视觉和类别特征,从而生成任务感知的提议。然后,利用对象推理网络对这些提议进行概率分配,并通过软选择机制选择最终的指代对象位置。这种设计旨在充分利用各种特征信息,提高定位精度,并保留目标检测能力。

技术框架:MB-ORES的整体架构包含两个主要阶段:1) 图表示构建:对每个图像构建图表示,包含对象查询、类别嵌入和提议位置。2) 任务感知处理:利用任务感知架构处理图表示,执行视觉定位任务。该架构包含两个关键模块:a) 多分支网络:集成空间、视觉和类别特征,生成任务感知提议。b) 对象推理网络:分配提议的概率,并使用软选择机制进行最终定位。

关键创新:MB-ORES的关键创新在于其多分支网络和对象推理网络的结合。多分支网络能够有效融合不同类型的特征信息,生成更准确的任务感知提议。对象推理网络则通过概率分配和软选择机制,进一步提高定位精度。此外,该框架通过微调开放集目标检测器,实现了视觉定位和目标检测的统一。

关键设计:多分支网络采用并行的分支结构,分别处理空间、视觉和类别特征。空间特征通过位置编码获得,视觉特征通过卷积神经网络提取,类别特征通过类别嵌入获得。这些特征在融合后被输入到对象推理网络中。对象推理网络采用图神经网络结构,对提议之间的关系进行建模,并输出每个提议的概率。损失函数包括定位损失和分类损失,用于优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MB-ORES在OPT-RSVG和DIOR-RSVG数据集上取得了显著的性能提升。在OPT-RSVG数据集上,MB-ORES的性能超过了现有最佳方法,取得了X%的提升(具体数值未知)。在DIOR-RSVG数据集上,MB-ORES也取得了类似的性能提升(具体数值未知)。此外,MB-ORES还保留了经典的目标检测能力,实现了视觉定位和目标检测的统一。

🎯 应用场景

MB-ORES可应用于遥感图像分析、城市规划、灾害监测、环境评估等领域。例如,可以根据用户输入的自然语言描述,快速定位遥感图像中的特定地物,为相关决策提供支持。该研究有助于提升遥感图像智能解译的自动化水平,具有重要的实际应用价值。

📄 摘要(原文)

We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: \url{https://github.com/rd20karim/MB-ORES}.