Vision Function Layer in Multimodal LLMs

📄 arXiv: 2509.24791v1 📥 PDF

作者: Cheng Shi, Yizhou Yu, Sibei Yang

分类: cs.CV

发布日期: 2025-09-29

备注: Accepted at NeurIPS 2025 (preview; camera-ready in preparation)


💡 一句话要点

揭示多模态LLM视觉功能层,实现高效可定制的视觉能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 视觉功能层 模型分析 模型微调

📋 核心要点

  1. 现有MLLM视觉功能分散在不同层,缺乏对各层功能的精细理解和有效利用。
  2. 提出视觉Token交换框架,定位并分析MLLM中负责特定视觉功能的视觉功能层(VFL)。
  3. VFL-LoRA和VFL-select方法,在模型微调和数据选择上超越现有方法,提升模型性能。

📝 摘要(中文)

本研究发现多模态大型语言模型(MLLM)中与视觉相关的功能解码分布在不同的解码器层中。通常,计数、定位或OCR识别等每个功能都集中在两到三层,我们将其定义为视觉功能层(VFL)。此外,不同VFL的深度及其顺序在不同的MLLM中表现出一致的模式,这与人类行为非常吻合(例如,首先进行识别,然后进行计数,最后进行定位)。这些发现源于视觉Token交换,这是一种新颖的分析框架,它修改目标KV缓存条目,以精确地阐明解码期间的层特定功能。此外,这些见解为定制MLLM以适应实际下游应用提供了巨大的效用。例如,当选择性地将LoRA训练应用于其功能与训练数据对齐的VFL时,VFL-LoRA不仅优于full-LoRA,而且还可以防止领域外功能遗忘。此外,通过分析当特定VFL被消融时训练数据的性能差异,VFL-select自动按功能对数据进行分类,从而实现高效的数据选择,以直接增强相应的功能。因此,VFL-select在数据选择方面超越了人类专家,并且仅使用原始数据集的20%即可达到完整数据性能的98%。这项研究更深入地理解了MLLM视觉处理,从而促进了更高效,可解释和鲁棒的模型的创建。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)中视觉功能分散在不同层,导致模型效率低下和难以定制的问题。现有方法通常将整个模型视为一个整体进行训练和微调,忽略了不同层可能负责不同视觉功能的事实,这导致了训练资源的浪费和模型泛化能力的下降。此外,缺乏对各层功能的精细理解也使得模型难以针对特定任务进行优化。

核心思路:论文的核心思路是识别并隔离MLLM中负责特定视觉功能的层,即视觉功能层(VFL)。通过分析这些VFL,可以更深入地理解MLLM的视觉处理机制,并基于此设计更高效的训练和微调策略。论文认为,针对特定VFL进行训练可以提高模型的效率和性能,同时防止领域外功能遗忘。此外,通过分析VFL对不同数据的响应,可以实现自动数据选择,从而进一步提高模型的训练效率。

技术框架:论文提出了一个名为“视觉Token交换”的分析框架,用于识别MLLM中的VFL。该框架通过修改目标KV缓存条目来精确地阐明解码期间的层特定功能。具体来说,该框架首先选择一个特定的视觉Token,然后将其替换为另一个Token,并观察模型输出的变化。通过分析不同层对这种替换的响应,可以确定哪些层负责处理该视觉Token所代表的功能。基于VFL的识别,论文进一步提出了两种应用方法:VFL-LoRA和VFL-select。VFL-LoRA选择性地将LoRA训练应用于与训练数据对齐的VFL,而VFL-select则通过分析VFL对不同数据的响应来自动选择训练数据。

关键创新:论文最重要的技术创新点在于提出了视觉功能层(VFL)的概念,并开发了视觉Token交换框架来识别这些VFL。与现有方法不同,该方法能够精确定位MLLM中负责特定视觉功能的层,从而为模型分析和优化提供了新的视角。此外,VFL-LoRA和VFL-select方法也代表了对现有训练和数据选择策略的改进。

关键设计:视觉Token交换框架的关键设计在于KV缓存条目的选择和修改策略。论文需要仔细选择要替换的视觉Token,并确保替换后的Token不会引入新的语义信息。此外,VFL-LoRA的关键设计在于如何确定哪些VFL与训练数据对齐。论文通过分析VFL对训练数据的响应来解决这个问题。VFL-select的关键设计在于如何定义VFL对数据的响应,以及如何基于这种响应来选择训练数据。论文使用性能差异作为响应指标,并采用贪心算法来选择训练数据。

📊 实验亮点

实验结果表明,VFL-LoRA在模型微调方面优于full-LoRA,能够防止领域外功能遗忘。VFL-select在数据选择方面超越了人类专家,仅使用原始数据集的20%即可达到完整数据性能的98%。这些结果验证了VFL概念的有效性,并展示了其在模型优化方面的巨大潜力。

🎯 应用场景

该研究成果可应用于多种场景,例如:定制MLLM以适应特定视觉任务,如医学图像分析、自动驾驶等;提高MLLM在资源受限设备上的部署效率;开发更安全可靠的MLLM,防止模型产生幻觉或错误输出;以及用于教育领域,帮助学生更好地理解MLLM的工作原理。

📄 摘要(原文)

This study identifies that visual-related functional decoding is distributed across different decoder layers in Multimodal Large Language Models (MLLMs). Typically, each function, such as counting, grounding, or OCR recognition, narrows down to two or three layers, which we define as Vision Function Layers (VFL). Additionally, the depth and its order of different VFLs exhibits a consistent pattern across different MLLMs, which is well-aligned with human behaviors (e.g., recognition occurs first, followed by counting, and then grounding). These findings are derived from Visual Token Swapping, our novel analytical framework that modifies targeted KV cache entries to precisely elucidate layer-specific functions during decoding. Furthermore, these insights offer substantial utility in tailoring MLLMs for real-world downstream applications. For instance, when LoRA training is selectively applied to VFLs whose functions align with the training data, VFL-LoRA not only outperform full-LoRA but also prevent out-of-domain function forgetting. Moreover, by analyzing the performance differential on training data when particular VFLs are ablated, VFL-select automatically classifies data by function, enabling highly efficient data selection to directly bolster corresponding capabilities. Consequently, VFL-select surpasses human experts in data selection, and achieves 98% of full-data performance with only 20% of the original dataset. This study delivers deeper comprehension of MLLM visual processing, fostering the creation of more efficient, interpretable, and robust models.