GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

📄 arXiv: 2601.04777v1 📥 PDF

作者: Shurong Zheng, Yousong Zhu, Hongyin Zhao, Fan Yang, Yufei Zhan, Ming Tang, Jinqiao Wang

分类: cs.CV, cs.AI

发布日期: 2026-01-08


💡 一句话要点

提出GeM-VG,一个用于广义多图视觉定位的多模态大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多图视觉定位 多模态大语言模型 强化学习 思维链推理 跨图像推理 数据集构建 视觉定位

📋 核心要点

  1. 现有方法在多图视觉定位上存在局限性,主要体现在对任务类型的支持不足和缺乏统一的建模方法。
  2. GeM-VG通过系统地组织多图定位任务,并结合混合强化微调策略,提升模型在复杂场景下的感知和推理能力。
  3. 实验结果表明,GeM-VG在多图和单图定位任务上均取得了显著的性能提升,同时保持了强大的多图理解能力。

📝 摘要(中文)

多模态大语言模型(MLLMs)在单图定位和通用多图理解方面取得了显著进展。最近,一些方法开始关注多图定位。然而,由于缺乏对广义定位任务的统一建模,它们受到单目标定位和有限的实际任务类型的限制。因此,我们提出了GeM-VG,一个能够进行广义多图视觉定位的MLLM。为了支持这一点,我们根据跨图像线索和推理的依赖性,系统地对现有的多图定位任务进行分类和组织,并引入了MG-Data-240K数据集,解决了现有数据集在目标数量和图像关系方面的局限性。为了应对稳健处理各种多图定位任务的挑战,我们进一步提出了一种混合强化微调策略,该策略集成了思维链(CoT)推理和直接回答,考虑了它们的互补优势。该策略采用了一种类似于R1的算法,由精心设计的基于规则的奖励指导,有效地增强了模型的整体感知和推理能力。大量的实验表明了我们模型优越的广义定位能力。对于多图定位,它在MIG-Bench和MC-Bench上分别优于之前的领先MLLM 2.0%和9.7%。在单图定位中,它在ODINW上比基础模型提高了9.1%。此外,我们的模型在通用多图理解方面保持了强大的能力。

🔬 方法详解

问题定义:现有方法在多图视觉定位任务中,主要面临两个痛点:一是缺乏对各种实际任务类型的支持,例如需要跨图像推理才能完成的定位任务;二是缺乏统一的建模方法,导致模型难以泛化到不同的多图定位场景。

核心思路:GeM-VG的核心思路是构建一个能够进行广义多图视觉定位的MLLM。通过系统地组织和分类多图定位任务,并设计相应的训练策略,使模型能够更好地理解和利用跨图像的信息,从而提升定位的准确性和泛化能力。

技术框架:GeM-VG的整体框架包括以下几个主要部分:1) 多图定位任务的分类和组织,根据跨图像线索和推理的依赖性进行分类;2) MG-Data-240K数据集的构建,用于解决现有数据集在目标数量和图像关系方面的局限性;3) 混合强化微调策略,集成了思维链(CoT)推理和直接回答,以增强模型的感知和推理能力。

关键创新:GeM-VG的关键创新在于其混合强化微调策略。该策略结合了CoT推理和直接回答的优点,并采用了一种类似于R1的算法,由精心设计的基于规则的奖励指导。这种策略能够有效地提升模型在复杂多图场景下的感知和推理能力,使其能够更好地完成各种多图定位任务。

关键设计:混合强化微调策略的关键设计包括:1) 基于规则的奖励函数,用于指导模型的训练,使其能够更好地完成定位任务;2) CoT推理和直接回答的集成,利用CoT推理来增强模型的推理能力,同时利用直接回答来提高模型的效率;3) R1-like算法的应用,用于优化模型的策略,使其能够更好地适应不同的多图定位场景。

📊 实验亮点

GeM-VG在多图定位任务上取得了显著的性能提升。在MIG-Bench和MC-Bench数据集上,分别超越了之前的领先MLLM 2.0%和9.7%。此外,在单图定位任务ODINW上,相比于基础模型,GeM-VG也取得了9.1%的提升。这些结果表明,GeM-VG在广义多图视觉定位方面具有强大的能力。

🎯 应用场景

GeM-VG在智能安防、自动驾驶、医学影像分析等领域具有广泛的应用前景。例如,在智能安防中,可以利用多摄像头信息进行目标跟踪和行为分析;在自动驾驶中,可以利用多个传感器数据进行环境感知和路径规划;在医学影像分析中,可以利用多张影像进行疾病诊断和治疗方案制定。该研究的实际价值在于提升了多模态大语言模型在复杂场景下的感知和推理能力,为相关领域的发展提供了新的技术手段。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have demonstrated impressive progress in single-image grounding and general multi-image understanding. Recently, some methods begin to address multi-image grounding. However, they are constrained by single-target localization and limited types of practical tasks, due to the lack of unified modeling for generalized grounding tasks. Therefore, we propose GeM-VG, an MLLM capable of Generalized Multi-image Visual Grounding. To support this, we systematically categorize and organize existing multi-image grounding tasks according to their reliance of cross-image cues and reasoning, and introduce the MG-Data-240K dataset, addressing the limitations of existing datasets regarding target quantity and image relation. To tackle the challenges of robustly handling diverse multi-image grounding tasks, we further propose a hybrid reinforcement finetuning strategy that integrates chain-of-thought (CoT) reasoning and direct answering, considering their complementary strengths. This strategy adopts an R1-like algorithm guided by a carefully designed rule-based reward, effectively enhancing the model's overall perception and reasoning capabilities. Extensive experiments demonstrate the superior generalized grounding capabilities of our model. For multi-image grounding, it outperforms the previous leading MLLMs by 2.0% and 9.7% on MIG-Bench and MC-Bench, respectively. In single-image grounding, it achieves a 9.1% improvement over the base model on ODINW. Furthermore, our model retains strong capabilities in general multi-image understanding.