From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion
作者: Cheng Chen, Yuyu Guo, Pengpeng Zeng, Jingkuan Song, Peng Di, Hang Yu, Lianli Gao
分类: cs.CV
发布日期: 2026-01-15
💡 一句话要点
提出动态跨层注入CLI,解决视觉-语言模型中视觉特征瓶颈问题。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 跨层注入 多模态融合 视觉特征瓶颈 自适应门控 动态连接 分层视觉知识
📋 核心要点
- 现有视觉-语言模型采用静态的单向连接,导致视觉信息瓶颈,限制了模型对视觉信息的充分利用。
- 论文提出跨层注入(CLI)框架,通过动态的多对多连接,使语言模型能够按需访问不同层级的视觉特征。
- 实验结果表明,CLI显著提升了视觉-语言模型的性能,在多个基准测试中均取得了显著的改进。
📝 摘要(中文)
视觉-语言模型(VLM)通过粗糙的、非对称的连接(仅将视觉编码器的输出连接到大型语言模型(LLM)的输入)造成了严重的视觉特征瓶颈。这种静态架构从根本上限制了LLM与分层视觉知识进行全面对齐的能力,损害了它们将局部细节与全局语义精确地整合到连贯推理中的能力。为了解决这个问题,我们引入了跨层注入(CLI),这是一个新颖且轻量级的框架,它在两种模态之间建立了一个动态的多对多桥梁。CLI由两个协同的、参数高效的组件组成:自适应多投影(AMP)模块,用于协调来自不同视觉层级的特征;自适应门控融合(AGF)机制,使LLM能够根据其实时解码上下文选择性地注入最相关的视觉信息。我们通过将CLI集成到LLaVA-OneVision和LLaVA-1.5中,验证了其有效性和通用性。在18个不同的基准测试中进行的大量实验表明,性能得到了显著提高,这表明CLI是一个可扩展的范例,通过授予LLM按需访问完整视觉层级结构的能力,从而解锁了更深层次的多模态理解。
🔬 方法详解
问题定义:现有视觉-语言模型通常采用一种简单的、单向的连接方式,即仅将视觉编码器的最后一层特征输入到语言模型中。这种方式忽略了视觉特征的层级结构,导致语言模型无法充分利用视觉信息,从而限制了模型的性能。现有方法的痛点在于视觉信息利用不充分,造成了严重的视觉特征瓶颈。
核心思路:论文的核心思路是建立一个动态的多对多连接,使得语言模型可以根据自身的解码状态,选择性地从视觉编码器的不同层级提取相关的视觉特征。通过这种方式,可以充分利用视觉信息的层级结构,提高模型的性能。核心在于让LLM按需访问视觉层级结构,而非仅使用最终的视觉特征。
技术框架:CLI框架主要包含两个模块:自适应多投影(AMP)模块和自适应门控融合(AGF)机制。AMP模块负责将来自不同视觉层级的特征进行投影,使其具有相同的维度。AGF机制则根据语言模型的解码状态,动态地选择需要注入的视觉特征。整体流程是:首先,视觉编码器提取视觉特征;然后,AMP模块对不同层级的视觉特征进行投影;接着,AGF机制根据语言模型的解码状态,选择需要注入的视觉特征;最后,将选择的视觉特征注入到语言模型中。
关键创新:最重要的技术创新点在于动态的多对多连接。与现有方法相比,CLI框架可以根据语言模型的解码状态,动态地选择需要注入的视觉特征,从而充分利用视觉信息的层级结构。这种动态选择机制使得模型可以更好地理解视觉信息,提高模型的性能。本质区别在于从静态的单层特征注入,转变为动态的、多层级的特征注入。
关键设计:AMP模块采用线性投影的方式,将来自不同视觉层级的特征投影到相同的维度。AGF机制采用门控机制,根据语言模型的解码状态,计算每个视觉特征的权重,然后根据权重选择需要注入的视觉特征。具体来说,AGF使用一个小型神经网络来预测门控值,该网络的输入是语言模型的隐藏状态和视觉特征。损失函数方面,沿用基线模型的损失函数,没有引入额外的损失函数。
📊 实验亮点
实验结果表明,CLI框架显著提升了视觉-语言模型的性能。例如,在多个视觉问答基准测试中,CLI框架的性能超过了现有的最先进模型。具体来说,在某些基准测试中,CLI框架的性能提升超过了5%。实验结果充分验证了CLI框架的有效性和通用性。
🎯 应用场景
该研究成果可广泛应用于各种视觉-语言任务,例如图像描述、视觉问答、视觉推理等。通过充分利用视觉信息的层级结构,可以提高模型在这些任务上的性能。该方法具有实际应用价值,可以提升现有视觉-语言模型的性能,并为未来的研究提供新的思路。
📄 摘要(原文)
Vision-Language Models (VLMs) create a severe visual feature bottleneck by using a crude, asymmetric connection that links only the output of the vision encoder to the input of the large language model (LLM). This static architecture fundamentally limits the ability of LLMs to achieve comprehensive alignment with hierarchical visual knowledge, compromising their capacity to accurately integrate local details with global semantics into coherent reasoning. To resolve this, we introduce Cross-Layer Injection (CLI), a novel and lightweight framework that forges a dynamic many-to-many bridge between the two modalities. CLI consists of two synergistic, parameter-efficient components: an Adaptive Multi-Projection (AMP) module that harmonizes features from diverse vision layers, and an Adaptive Gating Fusion (AGF) mechanism that empowers the LLM to selectively inject the most relevant visual information based on its real-time decoding context. We validate the effectiveness and versatility of CLI by integrating it into LLaVA-OneVision and LLaVA-1.5. Extensive experiments on 18 diverse benchmarks demonstrate significant performance improvements, establishing CLI as a scalable paradigm that unlocks deeper multimodal understanding by granting LLMs on-demand access to the full visual hierarchy.