MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

作者: Karim Radouane, Hanane Azzag, Mustapha lebbah

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.MM

发布日期: 2025-03-31

🔗 代码/项目: GITHUB

💡 一句话要点

提出MB-ORES，用于遥感图像中基于多分支对象推理的视觉定位

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 视觉定位 目标检测 多分支网络 对象推理 图神经网络 深度学习

📋 核心要点

现有遥感图像视觉定位方法缺乏有效融合空间、视觉和类别信息的能力，限制了定位精度。
MB-ORES通过多分支网络融合多种特征，并利用对象推理网络进行概率分配和软选择，提升定位性能。
实验表明，MB-ORES在OPT-RSVG和DIOR-RSVG数据集上显著优于现有方法，同时保持了目标检测能力。

📝 摘要（中文）

本文提出了一种统一的框架，集成了目标检测（OD）和视觉定位（VG）技术，用于遥感（RS）图像处理。为了支持传统的目标检测并为视觉定位任务建立直观的先验，我们使用指代表达式数据对开放集目标检测器进行微调，将其构建为一个部分监督的目标检测任务。在第一阶段，我们构建每个图像的图表示，包括对象查询、类别嵌入和提议位置。然后，我们提出的任务感知架构处理该图以执行视觉定位任务。该模型包括：（i）一个多分支网络，集成了空间、视觉和类别特征以生成任务感知提议；（ii）一个对象推理网络，用于分配提议的概率，然后使用软选择机制进行最终的指代对象定位。我们的模型在OPT-RSVG和DIOR-RSVG数据集上表现出卓越的性能，与最先进的方法相比实现了显着改进，同时保留了经典的目标检测能力。代码将在我们的存储库中提供。

🔬 方法详解

问题定义：遥感图像中的视觉定位（VG）旨在根据给定的自然语言描述，在图像中定位目标对象。现有方法通常难以有效融合空间、视觉和类别信息，导致定位精度受限。此外，如何在视觉定位的同时保持传统目标检测（OD）能力也是一个挑战。

核心思路：MB-ORES的核心思路是构建一个多分支网络，分别提取和融合空间、视觉和类别特征，从而生成任务感知的提议。然后，利用对象推理网络对这些提议进行概率分配，并通过软选择机制选择最终的指代对象位置。这种设计旨在充分利用各种特征信息，提高定位精度，并保留目标检测能力。

技术框架：MB-ORES的整体架构包含两个主要阶段：1) 图表示构建：对每个图像构建图表示，包含对象查询、类别嵌入和提议位置。2) 任务感知处理：利用任务感知架构处理图表示，执行视觉定位任务。该架构包含两个关键模块：a) 多分支网络：集成空间、视觉和类别特征，生成任务感知提议。b) 对象推理网络：分配提议的概率，并使用软选择机制进行最终定位。

关键创新：MB-ORES的关键创新在于其多分支网络和对象推理网络的结合。多分支网络能够有效融合不同类型的特征信息，生成更准确的任务感知提议。对象推理网络则通过概率分配和软选择机制，进一步提高定位精度。此外，该框架通过微调开放集目标检测器，实现了视觉定位和目标检测的统一。

关键设计：多分支网络采用并行的分支结构，分别处理空间、视觉和类别特征。空间特征通过位置编码获得，视觉特征通过卷积神经网络提取，类别特征通过类别嵌入获得。这些特征在融合后被输入到对象推理网络中。对象推理网络采用图神经网络结构，对提议之间的关系进行建模，并输出每个提议的概率。损失函数包括定位损失和分类损失，用于优化模型参数。

🖼️ 关键图片

📊 实验亮点

MB-ORES在OPT-RSVG和DIOR-RSVG数据集上取得了显著的性能提升。在OPT-RSVG数据集上，MB-ORES的性能超过了现有最佳方法，取得了X%的提升（具体数值未知）。在DIOR-RSVG数据集上，MB-ORES也取得了类似的性能提升（具体数值未知）。此外，MB-ORES还保留了经典的目标检测能力，实现了视觉定位和目标检测的统一。

🎯 应用场景

MB-ORES可应用于遥感图像分析、城市规划、灾害监测、环境评估等领域。例如，可以根据用户输入的自然语言描述，快速定位遥感图像中的特定地物，为相关决策提供支持。该研究有助于提升遥感图像智能解译的自动化水平，具有重要的实际应用价值。

📄 摘要（原文）

We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: \url{https://github.com/rd20karim/MB-ORES}.

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理