CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding

📄 arXiv: 2604.22498v1 📥 PDF

作者: Lihao Zheng, Zhenwei Shao, Yu Zhou, Yan Yang, Xintian Shen, Jiawei Chen, Hao Ma, Tao Wei

分类: cs.CV, cs.AI

发布日期: 2026-04-24


💡 一句话要点

提出CGC框架,提升MLLM在细粒度多图理解中的性能,解决空间幻觉等问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多图理解 对比学习 多模态学习 空间推理 对象恒常性

📋 核心要点

  1. 现有MLLM在细粒度多图理解中存在空间幻觉、注意力泄露和对象恒常性等问题。
  2. CGC通过图间和图内对比学习,引入干扰上下文和跨视图样本,提升模型的多图理解能力。
  3. 实验表明,CGC在多个多图理解和多模态推理任务上均取得了显著的性能提升。

📝 摘要(中文)

尽管多模态大型语言模型(MLLM)发展迅速,但在细粒度多图理解方面仍面临挑战,如空间幻觉、注意力泄露和对象恒常性失败。此外,现有方法通常依赖昂贵的人工标注或大规模的思维链(CoT)数据生成。我们提出了组合式Grounded Contrast (CGC),这是一个低成本的完整框架,用于提升MLLM的细粒度多图理解能力。CGC建立在现有的单图Grounded标注基础上,通过图间对比和图内对比构建组合式多图训练实例,分别引入语义解耦的干扰上下文用于跨图区分,以及相关的跨视图样本用于对象恒常性。CGC进一步在GRPO框架内引入基于规则的空间奖励,以在“先思考后Grounded”的范式下,提高源图归因、空间对齐和结构化输出有效性。实验表明,CGC在细粒度多图基准测试(包括MIG-Bench和VLM2-Bench)上实现了最先进的结果。学习到的多图理解能力也转移到更广泛的多模态理解和推理任务中,在MathVista (+2.90)、MuirBench (+2.88)、MMStar (+1.93)、MMMU (+1.77)和BLINK (+1.69)上,相对于Qwen3-VL-8B基线模型,取得了持续的提升。

🔬 方法详解

问题定义:现有方法在细粒度多图理解任务中表现不佳,主要体现在空间幻觉(错误的空间关系推断)、注意力泄露(无法准确关注相关区域)以及对象恒常性失败(无法识别同一对象在不同图像中的变化)。此外,现有方法依赖于昂贵的人工标注或大规模的CoT数据生成,成本较高。

核心思路:CGC的核心思路是通过对比学习,让模型学习区分不同图像之间的语义差异,并保持同一对象在不同视角下的表示一致性。通过构建包含干扰信息的负样本,迫使模型更准确地理解图像间的关系。同时,利用跨视图样本,增强模型对对象在不同图像中变化的鲁棒性。

技术框架:CGC框架主要包含三个部分:图间对比(Inter-Image Contrast)、图内对比(Intra-Image Contrast)和基于规则的空间奖励(Rule-Based Spatial Reward)。图间对比通过引入语义解耦的干扰上下文,让模型学习区分不同图像之间的差异。图内对比则利用相关的跨视图样本,增强模型对对象恒常性的理解。基于规则的空间奖励则在GRPO框架下,提升源图归因、空间对齐和结构化输出的有效性。

关键创新:CGC的关键创新在于其组合式的对比学习方法,它将图间对比和图内对比相结合,有效地解决了多图理解中的空间幻觉、注意力泄露和对象恒常性问题。此外,CGC利用现有的单图Grounded标注,避免了昂贵的多图标注成本,降低了训练难度。基于规则的空间奖励进一步提升了模型的空间推理能力。

关键设计:图间对比通过随机替换图像中的部分区域,构建负样本。图内对比则利用同一对象的不同视角图像作为正样本。基于规则的空间奖励则根据预定义的规则,对模型的空间推理结果进行评估,并给予相应的奖励或惩罚。损失函数包括对比学习损失和空间奖励损失。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CGC在MIG-Bench和VLM2-Bench等细粒度多图基准测试上取得了state-of-the-art的结果。此外,CGC学习到的多图理解能力可以迁移到更广泛的多模态理解和推理任务中,在MathVista、MuirBench、MMStar、MMMU和BLINK等数据集上,相对于Qwen3-VL-8B基线模型,分别取得了+2.90、+2.88、+1.93、+1.77和+1.69的性能提升。

🎯 应用场景

CGC框架可应用于需要细粒度多图理解的场景,例如:自动驾驶(理解车辆周围环境)、医学影像分析(对比不同切片图像)、遥感图像分析(识别地物变化)以及智能监控(跟踪目标对象)。该研究有助于提升多模态大模型的感知能力,使其更好地服务于现实世界的复杂任务。

📄 摘要(原文)

Although Multimodal Large Language Models (MLLMs) have advanced rapidly, they still face notable challenges in fine-grained multi-image understanding, often exhibiting spatial hallucination, attention leakage, and failures in object constancy. In addition, existing approaches typically rely on expensive human annotations or large-scale chain-of-thought (CoT) data generation. We propose Compositional Grounded Contrast (abbr. CGC), a low-cost full framework for boosting fine-grained multi-image understanding of MLLMs. Built on existing single-image grounding annotations, CGC constructs compositional multi-image training instances through Inter-Image Contrast and Intra-Image Contrast, which introduce semantically decoupled distractor contexts for cross-image discrimination and correlated cross-view samples for object constancy, respectively. CGC further introduces a Rule-Based Spatial Reward within the GRPO framework to improve source-image attribution, spatial alignment, and structured output validity under a Think-before-Grounding paradigm. Experiments show that CGC achieves state-of-the-art results on fine-grained multi-image benchmarks, including MIG-Bench and VLM2-Bench. The learned multi-image understanding capability also transfers to broader multimodal understanding and reasoning tasks, yielding consistent gains over the Qwen3-VL-8B base model on MathVista (+2.90), MuirBench (+2.88), MMStar (+1.93), MMMU (+1.77), and BLINK (+1.69).