Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

📄 arXiv: 2505.05464v2 📥 PDF

作者: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He

分类: cs.CL

发布日期: 2025-05-08 (更新: 2025-07-15)

备注: ICML 2025. Camera-ready version updated. Our code is publicly available at https://github.com/shiqichen17/VLM_Merging


💡 一句话要点

通过模型融合,将大型语言模型的推理能力迁移至视觉-语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型融合 视觉-语言模型 大型语言模型 推理能力 跨模态学习

📋 核心要点

  1. 现有的视觉-语言模型在结合视觉感知和语言推理能力方面仍存在机制理解不足的挑战。
  2. 本文提出一种跨模态模型融合方法,通过连接不同模型的参数,将LLM的推理能力迁移到VLM。
  3. 实验表明,该方法无需训练即可有效提升VLM的推理能力,并有助于理解感知和推理在模型中的作用方式。

📝 摘要(中文)

本文探讨了如何通过模型融合来结合视觉-语言模型(VLMs)的视觉感知能力与大型语言模型(LLMs)的推理能力。与以往侧重于融合同类型模型的工作不同,本文提出跨模态的模型融合方法,将LLMs的推理能力融入VLMs。实验结果表明,模型融合提供了一种无需训练即可将推理能力从LLMs迁移到VLMs的有效途径。此外,本文还利用融合后的模型来理解感知和推理的内部机制以及融合对其的影响。研究发现,感知能力主要编码在模型的早期层,而推理主要由中间到后期层促进。融合后,所有层都开始为推理做出贡献,而感知能力在各层中的分布基本保持不变。这些观察结果揭示了模型融合作为多模态集成和解释工具的潜力。

🔬 方法详解

问题定义:现有的视觉-语言模型(VLMs)虽然结合了视觉感知和大型语言模型(LLMs)的通用能力(如推理),但对于这两种能力如何结合以及各自的贡献机制理解不足。现有方法通常侧重于训练新的VLM或微调现有模型,计算成本高昂,且难以解释模型内部的运作机制。

核心思路:本文的核心思路是通过模型融合,直接将LLMs的推理能力迁移到VLMs,而无需额外的训练。这种方法的核心在于,假设LLMs和VLMs在参数空间中存在某种对应关系,通过融合它们的参数,可以将LLMs的推理能力“嫁接”到VLMs上。这样既能提升VLMs的推理能力,又能通过分析融合前后模型的变化,来理解感知和推理在模型中的作用方式。

技术框架:本文的技术框架主要包括以下几个步骤:1. 选择预训练的VLM和LLM;2. 确定融合的层数和融合比例;3. 执行模型融合操作,即将VLM和LLM的对应层参数进行加权平均;4. 在下游任务上评估融合后的VLM的性能;5. 分析融合前后模型各层的激活值,以理解感知和推理能力的分布。

关键创新:本文最重要的技术创新点在于跨模态的模型融合。以往的模型融合工作通常集中在融合同类型的模型,例如融合多个LLMs。而本文首次尝试融合不同模态的模型(VLM和LLM),这使得无需训练即可将LLMs的推理能力迁移到VLMs成为可能。此外,本文还利用融合后的模型来分析感知和推理在模型中的作用方式,这为理解多模态模型的内部机制提供了新的视角。

关键设计:在模型融合过程中,一个关键的设计是确定融合的层数和融合比例。本文通过实验发现,融合中间到后期的层对推理能力的提升最为显著。融合比例的选择也至关重要,需要根据具体的VLM和LLM进行调整。此外,本文还使用了简单的加权平均作为融合操作,这使得融合过程更加高效和易于实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过模型融合,VLMs的推理能力得到了显著提升,在多个视觉问答数据集上取得了有竞争力的结果。例如,在某些数据集上,融合后的VLM的性能超过了单独训练的VLM,并且接近甚至超过了使用更复杂训练策略的VLM。此外,本文还发现,融合后,VLM的所有层都开始为推理做出贡献,这表明模型融合可以有效地将推理能力分布到整个模型中。

🎯 应用场景

该研究成果可应用于各种需要视觉感知和推理能力的场景,例如视觉问答、图像描述、机器人导航等。通过将大型语言模型的推理能力迁移到视觉-语言模型,可以提升这些应用在复杂场景下的性能和鲁棒性。此外,该研究也为多模态模型的理解和优化提供了新的思路,有助于开发更智能、更可靠的人工智能系统。

📄 摘要(原文)

Vision-Language Models (VLMs) combine visual perception with the general capabilities, such as reasoning, of Large Language Models (LLMs). However, the mechanisms by which these two abilities can be combined and contribute remain poorly understood. In this work, we explore to compose perception and reasoning through model merging that connects parameters of different models. Unlike previous works that often focus on merging models of the same kind, we propose merging models across modalities, enabling the incorporation of the reasoning capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate that model merging offers a successful pathway to transfer reasoning abilities from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged models to understand the internal mechanism of perception and reasoning and how merging affects it. We find that perception capabilities are predominantly encoded in the early layers of the model, whereas reasoning is largely facilitated by the middle-to-late layers. After merging, we observe that all layers begin to contribute to reasoning, whereas the distribution of perception abilities across layers remains largely unchanged. These observations shed light on the potential of model merging as a tool for multimodal integration and interpretation.