GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

作者: Shurong Zheng, Yousong Zhu, Hongyin Zhao, Fan Yang, Yufei Zhan, Ming Tang, Jinqiao Wang

分类: cs.CV, cs.AI

发布日期: 2026-01-08

💡 一句话要点

提出GeM-VG，一个用于广义多图视觉定位的多模态大语言模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多图视觉定位 多模态大语言模型 强化学习 思维链 数据集构建

📋 核心要点

现有方法在多图视觉定位中存在局限性，主要体现在对单一目标定位的约束以及实际任务类型的限制。
GeM-VG通过统一建模广义定位任务，并结合混合强化微调策略，增强模型在多图场景下的感知和推理能力。
实验结果表明，GeM-VG在多图和单图定位任务上均取得了显著提升，并在通用多图理解方面保持了强大能力。

📝 摘要（中文）

多模态大语言模型(MLLMs)在单图定位和通用多图理解方面表现出令人印象深刻的进展。最近，一些方法开始解决多图定位问题。然而，由于缺乏对广义定位任务的统一建模，它们受到单目标定位和有限类型的实际任务的限制。因此，我们提出了GeM-VG，一个能够进行广义多图视觉定位的MLLM。为了支持这一点，我们根据现有多图定位任务对跨图像线索和推理的依赖程度，系统地对它们进行分类和组织，并引入了MG-Data-240K数据集，解决了现有数据集在目标数量和图像关系方面的局限性。为了应对稳健处理各种多图定位任务的挑战，我们进一步提出了一种混合强化微调策略，该策略集成了思维链(CoT)推理和直接回答，考虑了它们的互补优势。该策略采用了一种类似于R1的算法，由精心设计的基于规则的奖励指导，有效地增强了模型的整体感知和推理能力。大量的实验证明了我们模型卓越的广义定位能力。对于多图定位，它在MIG-Bench和MC-Bench上分别优于之前的领先MLLM 2.0%和9.7%。在单图定位中，它在ODINW上比基础模型提高了9.1%。此外，我们的模型在通用多图理解方面保持了强大的能力。

🔬 方法详解

问题定义：现有方法在多图视觉定位任务中，主要痛点在于无法处理复杂的多目标定位和多样化的实际任务类型，缺乏对跨图像线索的有效利用和推理，导致泛化能力不足。现有数据集也存在目标数量和图像关系方面的局限性。

核心思路：GeM-VG的核心思路是构建一个能够进行广义多图视觉定位的MLLM，通过统一建模各种多图定位任务，并利用混合强化微调策略，提升模型在复杂场景下的感知和推理能力。这种设计旨在克服现有方法的局限性，实现更强的泛化能力。

技术框架：GeM-VG的整体框架包含数据准备、模型构建和训练三个主要阶段。首先，构建MG-Data-240K数据集，该数据集包含多种多图定位任务，并具有丰富的目标数量和图像关系。然后，构建基于MLLM的GeM-VG模型，该模型能够处理多图输入，并进行视觉定位。最后，采用混合强化微调策略训练模型，该策略结合了CoT推理和直接回答，并使用基于规则的奖励函数进行指导。

关键创新：GeM-VG的关键创新在于以下几个方面：1) 提出了广义多图视觉定位的概念，并对现有任务进行了系统分类；2) 构建了MG-Data-240K数据集，解决了现有数据集的局限性；3) 提出了混合强化微调策略，有效提升了模型的感知和推理能力。

关键设计：混合强化微调策略是关键设计之一，它结合了CoT推理和直接回答的优势。CoT推理可以帮助模型进行逐步推理，提高定位的准确性；直接回答可以提高模型的效率。基于规则的奖励函数用于指导强化学习过程，奖励函数的设计需要根据具体的任务进行调整，以确保模型能够学习到正确的定位策略。

📊 实验亮点

GeM-VG在多图定位任务上取得了显著的性能提升。在MIG-Bench和MC-Bench数据集上，分别超越了之前的领先MLLM 2.0%和9.7%。在单图定位任务ODINW上，相比基础模型提升了9.1%。这些结果表明，GeM-VG在广义多图视觉定位方面具有强大的能力，并且在单图定位方面也具有一定的优势。

🎯 应用场景

GeM-VG在智能安防、自动驾驶、医学影像分析等领域具有广泛的应用前景。例如，在智能安防中，可以利用GeM-VG进行多摄像头场景下的目标跟踪和异常行为检测；在自动驾驶中，可以利用GeM-VG进行多传感器融合和环境感知；在医学影像分析中，可以利用GeM-VG进行多模态医学图像的病灶定位和诊断。该研究的实际价值在于提升了多图场景下的视觉定位能力，为相关应用提供了更可靠的技术支持。未来，GeM-VG有望进一步扩展到更多领域，并与其他技术相结合，实现更智能化的应用。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have demonstrated impressive progress in single-image grounding and general multi-image understanding. Recently, some methods begin to address multi-image grounding. However, they are constrained by single-target localization and limited types of practical tasks, due to the lack of unified modeling for generalized grounding tasks. Therefore, we propose GeM-VG, an MLLM capable of Generalized Multi-image Visual Grounding. To support this, we systematically categorize and organize existing multi-image grounding tasks according to their reliance of cross-image cues and reasoning, and introduce the MG-Data-240K dataset, addressing the limitations of existing datasets regarding target quantity and image relation. To tackle the challenges of robustly handling diverse multi-image grounding tasks, we further propose a hybrid reinforcement finetuning strategy that integrates chain-of-thought (CoT) reasoning and direct answering, considering their complementary strengths. This strategy adopts an R1-like algorithm guided by a carefully designed rule-based reward, effectively enhancing the model's overall perception and reasoning capabilities. Extensive experiments demonstrate the superior generalized grounding capabilities of our model. For multi-image grounding, it outperforms the previous leading MLLMs by 2.0% and 9.7% on MIG-Bench and MC-Bench, respectively. In single-image grounding, it achieves a 9.1% improvement over the base model on ODINW. Furthermore, our model retains strong capabilities in general multi-image understanding.

GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理