Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models

📄 arXiv: 2605.18160v1 📥 PDF

作者: Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang

分类: cs.CV, cs.AI

发布日期: 2026-05-18

🔗 代码/项目: GITHUB


💡 一句话要点

提出Vision Inference Former (VIF),解决多模态大语言模型中视觉信息弱化问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉信息保持 视觉推理 长文本生成 视觉语言对齐

📋 核心要点

  1. 多模态大语言模型中,视觉信息被弱化,与文本信息同等对待,降低了视觉模态的独特贡献。
  2. 提出Vision Inference Former (VIF)模块,在解码阶段持续注入视觉语义,确保生成内容与视觉内容对齐。
  3. 在14个基准测试中,VIF在多种架构上持续提升模型性能,且引入的额外开销极小。

📝 摘要(中文)

近年来,多模态大语言模型(MLLMs)取得了显著进展,这主要归功于有效的视觉和文本信息集成范式。主流的基于连接器的范式将视觉特征投影到文本序列中,从而在生成架构中实现统一的多模态对齐和推理。然而,我们的实验揭示了两个关键限制:(1)尽管视觉信息是 MLLMs 中的核心证据模态,但它被视为与文本token同等重要,从而削弱了视觉模态的独特贡献;(2)随着生成长度的增加,尤其是在有限的上下文窗口内,模型对视觉信息的依赖逐渐减弱,导致视觉-语言对齐恶化,并降低了生成内容与视觉语义之间的一致性。为了应对这些挑战,我们提出了视觉推理Former(VIF),这是一个轻量级的架构模块,它在纯视觉表示和模型的输出空间之间建立直接桥梁。具体来说,VIF在推理过程的解码阶段持续注入视觉语义,确保模型在生成过程中始终牢固地扎根于视觉内容。我们在涵盖通用推理、OCR、表格理解、以视觉为中心的评估和幻觉等14个基准任务上进行了实验。实验结果表明,VIF在各种架构中都能持续提高模型性能,同时引入的额外开销极小。该工作的代码可在https://github.com/Dong-Xinpeng/VIF 获取。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在长文本生成过程中,对视觉信息的依赖性逐渐减弱,导致生成内容与视觉语义的一致性降低,即视觉信息在生成过程中被“遗忘”。现有方法通常将视觉信息转换为文本token,与文本信息同等处理,无法突出视觉信息的重要性。

核心思路:VIF的核心思路是在解码阶段,通过一个轻量级的模块,持续地将原始视觉特征注入到模型的输出空间,从而保持模型对视觉信息的关注,避免视觉信息在生成过程中被稀释或遗忘。这样可以确保生成的内容始终与视觉内容保持一致。

技术框架:VIF作为一个独立的模块,可以插入到现有的多模态大语言模型的解码器中。其主要流程是:首先,提取纯视觉表示;然后,在解码的每一个步骤,VIF将视觉表示注入到解码器的输出空间。这种持续注入的方式,保证了视觉信息在整个生成过程中的存在感。

关键创新:VIF的关键创新在于其持续注入视觉信息的设计。与传统的只在输入端融合视觉信息的方法不同,VIF在解码的每一个步骤都强化视觉信息,从而解决了长文本生成中视觉信息弱化的问题。这种设计使得模型能够更好地利用视觉信息进行推理和生成。

关键设计:VIF模块本身是一个轻量级的网络结构,具体实现细节未知,但其核心在于如何有效地将视觉特征融入到解码器的输出中。可能的实现方式包括使用注意力机制、线性变换等。论文强调VIF的低开销,因此其网络结构应该相对简单。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VIF在14个基准任务上,包括通用推理、OCR、表格理解、以视觉为中心的评估和幻觉检测,均能持续提升模型性能。论文强调VIF在各种架构上都有效,且引入的额外开销极小,这表明VIF具有良好的通用性和实用性。具体的性能提升数据未知。

🎯 应用场景

VIF可应用于各种需要视觉信息保持一致的多模态任务,例如图像描述生成、视觉问答、基于视觉内容的对话系统等。该研究有助于提升多模态大语言模型在实际应用中的可靠性和准确性,尤其是在需要长时间依赖视觉信息的场景下,具有重要的应用价值。

📄 摘要(原文)

In recent years, multimodal large language models (MLLMs) have achieved remarkable progress, primarily attributed to effective paradigms for integrating visual and textual information. The dominant connector-based paradigm projects visual features into textual sequence, enabling unified multimodal alignment and reasoning within a generative architecture. However, our experiments reveal two key limitations: (1) Although visual information serves as the core evidential modality in MLLMs, it is treated on par with textual tokens, diminishing the unique contribution of the visual modality; (2) As generation length increases, particularly within a limited context window, the model's dependence on visual information progressively weakens, resulting in deteriorated vision-language alignment and reduced consistency between generated content and visual semantics. To address these challenges, we propose the Vision Inference Former (VIF), a lightweight architectural module that establishes a direct bridge between pure visual representations and the model's output space. Specifically, VIF continuously injects visual semantics throughout the decoding phase of the inference process, ensuring that the model remains firmly grounded in visual content during generation. We conduct experiments on 14 benchmark tasks covering general reasoning, OCR, table understanding, vision-centric evaluation, and hallucination. Experimental results show that VIF consistently improves model performance across diverse architectures while introducing minimal additional overhead. The code for this work is available at https://github.com/Dong-Xinpeng/VIF.