LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning

📄 arXiv: 2503.15621v2 📥 PDF

作者: Federico Cocchi, Nicholas Moratelli, Davide Caffagni, Sara Sarto, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2025-03-19 (更新: 2025-07-31)

备注: ICCV 2025 Workshop on What is Next in Multimodal Foundation Models

🔗 代码/项目: GITHUB


💡 一句话要点

LLaVA-MORE:多模态大语言模型中LLM与视觉骨干网络对比研究,提升视觉指令调优效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉指令调优 视觉骨干网络 语言模型 对比研究

📋 核心要点

  1. 现有MLLM研究主要关注模型规模扩展,忽略了模型大小、架构和性能间的权衡,缺乏系统性对比。
  2. LLaVA-MORE通过统一的训练协议,集成多种LLM和视觉骨干网络,进行公平对比分析。
  3. 实验评估了不同LLM和视觉编码器在多模态推理、生成和指令跟随方面的性能,并分析了图像分辨率和预训练数据的影响。

📝 摘要(中文)

多模态大语言模型(MLLM)的最新进展突显了视觉骨干网络和底层语言模型的关键作用。虽然之前的工作主要集中在将这些组件扩展到数十亿参数,但模型大小、架构和性能之间的权衡仍未得到充分探索。此外,训练数据和评估协议的不一致阻碍了直接比较,使得难以得出最佳设计选择。本文介绍了LLaVA-MORE,一个新的MLLM系列,它集成了最新的语言模型和不同的视觉骨干网络。为了确保公平比较,我们采用统一的训练协议,该协议始终应用于所有架构。我们的分析系统地探索了小型和中型LLM(包括Phi-4、LLaMA-3.1和Gemma-2),以评估多模态推理、生成和指令跟随,同时检查模型大小和性能之间的关系。除了评估LLM对最终结果的影响外,我们还对各种视觉编码器进行了全面研究,从基于CLIP的架构到DINOv2、SigLIP和SigLIP2等替代方案。其他实验研究了增加图像分辨率和预训练数据集变化的影响。总的来说,我们的结果为更有效的MLLM的设计提供了见解,提供了一个可重现的评估框架,该框架有助于直接比较,并可以指导未来的模型开发。

🔬 方法详解

问题定义:现有的多模态大语言模型研究主要集中在扩大模型规模,而忽略了视觉骨干网络和语言模型之间的协同作用以及它们对最终性能的影响。此外,由于训练数据和评估方式的不一致,很难对不同的模型架构进行公平的比较,从而阻碍了更有效的多模态模型的开发。因此,需要一个系统性的研究框架来探索不同视觉骨干网络和语言模型组合的性能。

核心思路:LLaVA-MORE的核心思路是通过构建一个统一的训练和评估框架,对不同的视觉骨干网络和语言模型进行公平的比较。通过控制训练数据、训练流程等变量,可以更清晰地了解不同组件对最终性能的影响,从而指导更有效的多模态模型设计。

技术框架:LLaVA-MORE的技术框架主要包括以下几个模块:1) 视觉编码器:使用不同的视觉骨干网络(如CLIP、DINOv2、SigLIP、SigLIP2)提取图像特征。2) 语言模型:集成不同的语言模型(如Phi-4、LLaMA-3.1、Gemma-2)进行多模态推理和生成。3) 统一训练协议:采用一致的训练数据和训练流程,确保公平比较。4) 评估指标:使用标准的多模态评估指标,评估模型的性能。

关键创新:LLaVA-MORE的关键创新在于其系统性的比较研究方法。通过统一的训练协议和全面的实验评估,揭示了不同视觉骨干网络和语言模型组合的性能差异,为多模态模型的设计提供了有价值的见解。此外,该研究还探讨了图像分辨率和预训练数据对模型性能的影响。

关键设计:LLaVA-MORE的关键设计包括:1) 视觉编码器的选择:选择了具有代表性的CLIP-based和非CLIP-based的视觉骨干网络,以探索不同视觉特征表示对模型性能的影响。2) 语言模型的选择:选择了不同规模的语言模型,以研究模型大小对多模态推理能力的影响。3) 训练数据的选择:使用了标准的多模态训练数据集,并进行了数据增强,以提高模型的泛化能力。4) 评估指标的选择:使用了常用的多模态评估指标,如VQA、Captioning等,以全面评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LLaVA-MORE通过实验对比了多种视觉骨干网络和语言模型,发现不同组合在多模态任务上表现出显著差异。例如,在特定任务上,SigLIP2视觉编码器与Gemma-2语言模型的组合表现出最佳性能。此外,实验还表明,增加图像分辨率可以提升模型性能,但收益会随着分辨率的增加而递减。

🎯 应用场景

该研究成果可应用于多种视觉语言任务,如图像描述、视觉问答、视觉推理等。通过选择合适的视觉骨干网络和语言模型组合,可以构建更高效、更准确的多模态模型,提升相关应用的用户体验。例如,在智能客服领域,可以利用该技术实现更智能的图像理解和问题解答。

📄 摘要(原文)

Recent progress in Multimodal Large Language Models (MLLMs) has highlighted the critical roles of both the visual backbone and the underlying language model. While prior work has primarily focused on scaling these components to billions of parameters, the trade-offs between model size, architecture, and performance remain underexplored. Additionally, inconsistencies in training data and evaluation protocols have hindered direct comparisons, making it difficult to derive optimal design choices. In this paper, we introduce LLaVA-MORE, a new family of MLLMs that integrates recent language models with diverse visual backbones. To ensure fair comparisons, we employ a unified training protocol applied consistently across all architectures. Our analysis systematically explores both small- and medium-scale LLMs -- including Phi-4, LLaMA-3.1, and Gemma-2 -- to evaluate multimodal reasoning, generation, and instruction following, while examining the relationship between model size and performance. Beyond evaluating the LLM impact on final results, we conduct a comprehensive study of various visual encoders, ranging from CLIP-based architectures to alternatives such as DINOv2, SigLIP, and SigLIP2. Additional experiments investigate the effects of increased image resolution and variations in pre-training datasets. Overall, our results provide insights into the design of more effective MLLMs, offering a reproducible evaluation framework that facilitates direct comparisons and can guide future model development. Our source code and trained models are publicly available at: https://github.com/aimagelab/LLaVA-MORE.