Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models

📄 arXiv: 2605.12374v1 📥 PDF

作者: Yanting Miao, Yutao Sun, Dexin Wang, Mengyu Zhou, Pascal Poupart, Lei Lv, Qi Zhao, Li Wang, Hao Li, Xiaoxi Jiang, Guanjun Jiang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-12


💡 一句话要点

提出GAP:一种用于多模态大语言模型中视觉推理的细粒度对齐范式

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉推理 潜在变量模型 特征对齐 视觉问答

📋 核心要点

  1. 现有视觉潜在推理方法存在特征空间不匹配问题,导致模型增益不稳定,影响推理效果。
  2. 论文提出GAP细粒度对齐范式,在特征、上下文和容量三个层面对齐视觉潜在推理,解决特征空间不匹配问题。
  3. 实验表明,GAP在Qwen2.5-VL 7B上取得了最佳的平均聚合感知和推理性能,验证了其有效性。

📝 摘要(中文)

视觉潜在推理允许多模态大语言模型(MLLM)创建中间视觉证据作为连续的tokens,避免了外部工具或图像生成器。然而,现有的方法通常遵循一种输出即输入的潜在范式,导致增益不稳定。我们发现特征空间不匹配是造成这种不稳定性的原因:主流的视觉-潜在模型建立在预归一化MLLM之上,并重用解码器隐藏状态作为预测的潜在输入,即使这些状态与模型训练时使用的输入嵌入的范数机制存在显著差异。这种不匹配会使直接潜在反馈变得不可靠。受此诊断的启发,我们提出了 extbf{GAP},一种用于视觉潜在建模的 extbf{G}ranular extbf{A}lignment extbf{P}aradigm(细粒度对齐范式)。GAP在三个层面对齐视觉潜在推理:特征级对齐通过轻量级的PCA对齐潜在头将解码器输出映射到输入兼容的视觉潜在空间;上下文级对齐使用可检查的辅助视觉监督来锚定潜在目标;容量引导对齐选择性地将潜在监督分配给基础MLLM难以处理的样本。在Qwen2.5-VL 7B上,由此产生的模型在我们监督的变体中实现了最佳的平均聚合感知和推理性能。推理时干预探测进一步表明,生成的潜在信息提供了与任务相关的视觉信号,而不仅仅是添加token槽。

🔬 方法详解

问题定义:现有的视觉潜在推理方法,特别是那些采用“输出即输入”范式的,在多模态大语言模型中表现出不稳定性。核心问题在于解码器输出的隐藏状态(被用作潜在视觉输入的预测)与模型原始训练时使用的输入嵌入在特征空间上存在显著差异,这种差异主要体现在范数分布的不同。这种“特征空间不匹配”导致模型难以有效地利用生成的潜在视觉信息进行推理,从而限制了性能提升。

核心思路:论文的核心思路是通过细粒度的对齐策略来弥合解码器输出和输入嵌入之间的特征空间差异,从而提高视觉潜在推理的稳定性和有效性。具体来说,GAP旨在从特征、上下文和容量三个层面进行对齐,确保生成的潜在视觉信息与模型的输入空间更加兼容,并提供更强的监督信号。

技术框架:GAP包含三个主要模块,分别对应三个层面的对齐:1) 特征级对齐:使用一个轻量级的PCA对齐潜在头,将解码器输出映射到与输入嵌入兼容的视觉潜在空间。这个模块旨在减小特征分布的差异。2) 上下文级对齐:引入可检查的辅助视觉监督,用于锚定潜在目标。这通过提供额外的上下文信息来指导潜在信息的生成。3) 容量引导对齐:根据基础MLLM在不同样本上的表现,选择性地分配潜在监督。对于基础模型难以处理的样本,给予更强的监督信号。

关键创新:GAP的关键创新在于其细粒度的对齐范式,它不仅关注特征空间的对齐,还考虑了上下文信息和模型容量的影响。与现有方法相比,GAP不是简单地将解码器输出作为潜在输入,而是通过一系列对齐操作,确保生成的潜在信息与模型的输入空间更加兼容,并提供更有效的监督信号。这种细粒度的对齐策略能够更有效地利用潜在视觉信息,从而提高模型的推理性能。

关键设计:在特征级对齐中,PCA对齐潜在头的具体实现方式(例如PCA的维度、训练方式等)是一个关键设计。上下文级对齐中,辅助视觉监督的具体形式(例如,使用哪些视觉特征、如何计算损失等)也是一个重要设计。容量引导对齐中,如何判断基础MLLM在哪些样本上表现不佳,以及如何调整监督信号的强度,也是需要仔细考虑的关键设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在Qwen2.5-VL 7B模型上进行了实验,结果表明,GAP方法在平均聚合感知和推理性能方面取得了最佳表现。此外,推理时干预探测实验表明,生成的潜在信息提供了与任务相关的视觉信号,而不仅仅是添加token槽,验证了GAP方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要视觉推理的多模态任务,例如视觉问答、图像描述、视觉对话等。通过提升多模态大语言模型的视觉推理能力,可以使其在智能客服、自动驾驶、医疗诊断等领域发挥更大的作用,并为开发更智能、更可靠的人工智能系统奠定基础。

📄 摘要(原文)

Visual latent reasoning lets a multimodal large language model (MLLM) create intermediate visual evidence as continuous tokens, avoiding external tools or image generators. However, existing methods usually follow an output-as-input latent paradigm and yield unstable gains. We identify evidence for a feature-space mismatch that can contribute to this instability: dominant visual-latent models build on pre-norm MLLMs and reuse decoder hidden states as predicted latent inputs, even though these states occupy a substantially different norm regime from the input embeddings the model was trained to consume~\citep{xie2025mhc,li2026siamesenorm,team2026attention}. This mismatch can make direct latent feedback unreliable. Motivated by this diagnosis, we propose \textbf{GAP}, a \textbf{G}ranular \textbf{A}lignment \textbf{P}aradigm for visual latent modeling. GAP aligns visual latent reasoning at three levels: feature-level alignment maps decoder outputs into input-compatible visual latents through a lightweight PCA-aligned latent head; context-level alignment grounds latent targets with inspectable auxiliary visual supervision; and capacity-guided alignment assigns latent supervision selectively to examples where the base MLLM struggles. On Qwen2.5-VL 7B, the resulting model achieves the best mean aggregate perception and reasoning performance among our supervised variants. Inference-time intervention probing further suggests that generated latents provide task-relevant visual signal beyond merely adding token slots.