GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models
作者: Shurong Zheng, Yousong Zhu, Hongyin Zhao, Fan Yang, Yufei Zhan, Ming Tang, Jinqiao Wang
分类: cs.CV, cs.AI
发布日期: 2026-01-08
💡 一句话要点
提出GeM-VG,一个用于广义多图视觉定位的多模态大语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多图视觉定位 多模态大语言模型 强化学习 思维链 数据集构建
📋 核心要点
- 现有方法在多图视觉定位中存在局限性,主要体现在对单一目标定位的约束以及实际任务类型的限制。
- GeM-VG通过统一建模广义定位任务,并结合混合强化微调策略,增强模型在多图场景下的感知和推理能力。
- 实验结果表明,GeM-VG在多图和单图定位任务上均取得了显著提升,并在通用多图理解方面保持了强大能力。
📝 摘要(中文)
多模态大语言模型(MLLMs)在单图定位和通用多图理解方面表现出令人印象深刻的进展。最近,一些方法开始解决多图定位问题。然而,由于缺乏对广义定位任务的统一建模,它们受到单目标定位和有限类型的实际任务的限制。因此,我们提出了GeM-VG,一个能够进行广义多图视觉定位的MLLM。为了支持这一点,我们根据现有多图定位任务对跨图像线索和推理的依赖程度,系统地对它们进行分类和组织,并引入了MG-Data-240K数据集,解决了现有数据集在目标数量和图像关系方面的局限性。为了应对稳健处理各种多图定位任务的挑战,我们进一步提出了一种混合强化微调策略,该策略集成了思维链(CoT)推理和直接回答,考虑了它们的互补优势。该策略采用了一种类似于R1的算法,由精心设计的基于规则的奖励指导,有效地增强了模型的整体感知和推理能力。大量的实验证明了我们模型卓越的广义定位能力。对于多图定位,它在MIG-Bench和MC-Bench上分别优于之前的领先MLLM 2.0%和9.7%。在单图定位中,它在ODINW上比基础模型提高了9.1%。此外,我们的模型在通用多图理解方面保持了强大的能力。
🔬 方法详解
问题定义:现有方法在多图视觉定位任务中,主要痛点在于无法处理复杂的多目标定位和多样化的实际任务类型,缺乏对跨图像线索的有效利用和推理,导致泛化能力不足。现有数据集也存在目标数量和图像关系方面的局限性。
核心思路:GeM-VG的核心思路是构建一个能够进行广义多图视觉定位的MLLM,通过统一建模各种多图定位任务,并利用混合强化微调策略,提升模型在复杂场景下的感知和推理能力。这种设计旨在克服现有方法的局限性,实现更强的泛化能力。
技术框架:GeM-VG的整体框架包含数据准备、模型构建和训练三个主要阶段。首先,构建MG-Data-240K数据集,该数据集包含多种多图定位任务,并具有丰富的目标数量和图像关系。然后,构建基于MLLM的GeM-VG模型,该模型能够处理多图输入,并进行视觉定位。最后,采用混合强化微调策略训练模型,该策略结合了CoT推理和直接回答,并使用基于规则的奖励函数进行指导。
关键创新:GeM-VG的关键创新在于以下几个方面:1) 提出了广义多图视觉定位的概念,并对现有任务进行了系统分类;2) 构建了MG-Data-240K数据集,解决了现有数据集的局限性;3) 提出了混合强化微调策略,有效提升了模型的感知和推理能力。
关键设计:混合强化微调策略是关键设计之一,它结合了CoT推理和直接回答的优势。CoT推理可以帮助模型进行逐步推理,提高定位的准确性;直接回答可以提高模型的效率。基于规则的奖励函数用于指导强化学习过程,奖励函数的设计需要根据具体的任务进行调整,以确保模型能够学习到正确的定位策略。
📊 实验亮点
GeM-VG在多图定位任务上取得了显著的性能提升。在MIG-Bench和MC-Bench数据集上,分别超越了之前的领先MLLM 2.0%和9.7%。在单图定位任务ODINW上,相比基础模型提升了9.1%。这些结果表明,GeM-VG在广义多图视觉定位方面具有强大的能力,并且在单图定位方面也具有一定的优势。
🎯 应用场景
GeM-VG在智能安防、自动驾驶、医学影像分析等领域具有广泛的应用前景。例如,在智能安防中,可以利用GeM-VG进行多摄像头场景下的目标跟踪和异常行为检测;在自动驾驶中,可以利用GeM-VG进行多传感器融合和环境感知;在医学影像分析中,可以利用GeM-VG进行多模态医学图像的病灶定位和诊断。该研究的实际价值在于提升了多图场景下的视觉定位能力,为相关应用提供了更可靠的技术支持。未来,GeM-VG有望进一步扩展到更多领域,并与其他技术相结合,实现更智能化的应用。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have demonstrated impressive progress in single-image grounding and general multi-image understanding. Recently, some methods begin to address multi-image grounding. However, they are constrained by single-target localization and limited types of practical tasks, due to the lack of unified modeling for generalized grounding tasks. Therefore, we propose GeM-VG, an MLLM capable of Generalized Multi-image Visual Grounding. To support this, we systematically categorize and organize existing multi-image grounding tasks according to their reliance of cross-image cues and reasoning, and introduce the MG-Data-240K dataset, addressing the limitations of existing datasets regarding target quantity and image relation. To tackle the challenges of robustly handling diverse multi-image grounding tasks, we further propose a hybrid reinforcement finetuning strategy that integrates chain-of-thought (CoT) reasoning and direct answering, considering their complementary strengths. This strategy adopts an R1-like algorithm guided by a carefully designed rule-based reward, effectively enhancing the model's overall perception and reasoning capabilities. Extensive experiments demonstrate the superior generalized grounding capabilities of our model. For multi-image grounding, it outperforms the previous leading MLLMs by 2.0% and 9.7% on MIG-Bench and MC-Bench, respectively. In single-image grounding, it achieves a 9.1% improvement over the base model on ODINW. Furthermore, our model retains strong capabilities in general multi-image understanding.