Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation
作者: Siyuan Liu, Jinyang Wu
分类: cs.AI, cs.CL, cs.CV, cs.LG
发布日期: 2026-06-08
备注: 18 pages, 4 figures. Submitted to Pattern Recognition
💡 一句话要点
提出双路径视觉令牌路由以解决多模态大语言模型的视觉饱和问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉令牌路由 深度学习 Transformer 计算效率 视觉饱和 后层融合
📋 核心要点
- 现有的多模态大语言模型在处理图像和文本时采用相同的计算方式,导致视觉令牌在深层网络中出现饱和现象。
- 论文提出双路径视觉令牌路由(DPVR),通过在视觉令牌饱和时将其路由到可训练的侧支路,优化了多模态模型的计算效率。
- 实验结果表明,DPVR-LF在保持多模态性能的同时,显著减少了视觉计算,挑战了传统的视觉令牌必须经过所有深层语言模型层的假设。
📝 摘要(中文)
多模态大语言模型(MLLMs)通常继承了为单模态文本建模设计的深度对称Transformer骨干,并对图像和语言令牌应用相同的计算。这种设计忽视了模态不对称性:图像和文本令牌在信息密度、冗余性和所需推理深度上存在显著差异。通过对LLaVA-1.5的层级分析,我们观察到视觉令牌在中间层趋于饱和。基于此,我们提出了双路径视觉令牌路由(DPVR),其核心实例DPVR-LF(后层融合)在饱和点将视觉令牌路由到一个可训练的侧支路,进行文本专用的前向传播,并在最后一层重新融合视觉和文本流。DPVR-LF以约3%的可训练参数保持了竞争力的多模态性能,同时减少了深层Transformer堆栈中的视觉计算。
🔬 方法详解
问题定义:本论文旨在解决多模态大语言模型在处理视觉和文本信息时的计算冗余问题,尤其是视觉令牌在深层网络中饱和导致的性能下降。现有方法未能有效利用模态间的差异,造成了不必要的计算负担。
核心思路:论文的核心思路是提出双路径视觉令牌路由(DPVR),通过在视觉令牌达到饱和点时,将其路由到一个单层的可训练侧支路,从而减少深层网络中的视觉计算,同时保持文本令牌的深度处理。
技术框架:DPVR的整体架构包括两个主要路径:一个是处理视觉令牌的侧支路,另一个是进行文本专用的深层前向传播。视觉令牌在饱和后被路由到侧支路,而文本令牌则继续在深层网络中处理,最终在最后一层进行融合。
关键创新:最重要的技术创新点在于提出了后层融合(Late-Layer Fusion)策略,证明了视觉令牌不必经过所有深层语言模型层,单一的后层融合即可保持强大的感知能力。
关键设计:DPVR-LF的设计中,约3%的可训练参数用于视觉令牌的处理,采用了简化的网络结构,减少了视觉计算的复杂性,同时保持了在标准基准上的竞争性多模态性能。实验中对比了不同层数的融合效果,验证了该方法的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,DPVR-LF在标准基准上保持了竞争力的多模态性能,同时将视觉计算减少了约30%。与传统方法相比,DPVR-LF的设计显著提高了模型的计算效率,验证了后层融合的有效性。
🎯 应用场景
该研究的潜在应用领域包括智能视觉系统、机器人感知、自动驾驶等多模态任务。通过优化多模态大语言模型的计算效率,能够在资源受限的环境中实现更高效的视觉和语言理解,推动相关技术的实际应用和发展。
📄 摘要(原文)
Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed for unimodal text modeling, and apply the same computation uniformly to image and language tokens. This design overlooks a key modality asymmetry: image and text tokens differ substantially in information density, redundancy, and required reasoning depth. Through a layer-wise analysis of LLaVA-1.5, we observe that vision tokens tend to saturate in the middle layers. Specifically, text-to-image attention decreases from 0.68 at layer 0 to 0.07 by layer 4, and stabilizes near 0.04 after layer 18, whereas text tokens continue to benefit from deep semantic processing. These findings suggest a mismatch between architectural symmetry and depth-asynchronous modality evolution, resulting in redundant visual computation and possible drift in perceptual representations during deep task-specific adaptation. Motivated by this, we propose Dual-Path Vision Token Routing (DPVR), a modality-asymmetric routing framework for efficient MLLMs. Its core instantiation, DPVR-LF (Late-Layer Fusion), routes vision tokens at the saturation point into a one-layer trainable side branch, runs a thirteen-layer text-only forward that skips image positions in the deep stack, and re-fuses the visual and textual streams only at the final layer. With approximately 3% trainable parameters, DPVR-LF preserves competitive multimodal performance on standard benchmarks while reducing visual computation in the deep Transformer stack. The results challenge the conventional assumption that vision tokens must traverse all deep language-model layers, and indicate that a single late fusion layer can be sufficient for maintaining strong perceptual competence in LLaVA-style MLLMs.