Scaling Laws for Native Multimodal Models
作者: Mustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby
分类: cs.CV
发布日期: 2025-04-10 (更新: 2025-08-09)
备注: ICCV 2025 (Oral). 28 figures, 13 tables
💡 一句话要点
原生多模态模型扩展法则研究:早期融合架构更具优势
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 原生多模态模型 早期融合 后期融合 扩展法则 混合专家模型 视觉问答
📋 核心要点
- 现有方法依赖预训练组件的后期融合,但其优越性未经验证,且可能存在效率瓶颈。
- 论文探索原生多模态模型,对比早期和后期融合架构,寻找更优的训练和部署方案。
- 实验表明,早期融合架构在参数量较少时性能更优,训练更高效,且易于部署,并受益于混合专家模型。
📝 摘要(中文)
构建能够通过多模态信号有效感知世界的通用模型是一个长期目标。目前的方法通常集成预训练的组件,例如将视觉编码器连接到LLM并继续进行多模态训练。虽然这些方法表现出卓越的样本效率,但这种后期融合架构是否本质上更优仍然是一个悬而未决的问题。本文重新审视了原生多模态模型(NMM)的架构设计——这些模型从头开始在所有模态上进行训练——并进行了一项广泛的扩展法则研究,涵盖了457个具有不同架构和训练混合的模型。我们的研究表明,后期融合架构相对于早期融合架构没有内在优势,后者不依赖于图像编码器或tokenizer。相反,早期融合在较低的参数计数下表现出更强的性能,训练效率更高,并且更容易部署。受到早期融合架构强大性能的推动,我们表明,结合混合专家(MoE)允许模型学习模态特定的权重,从而显着提高性能。
🔬 方法详解
问题定义:现有方法通常采用后期融合架构,即先独立预训练视觉编码器和语言模型,然后再进行多模态融合训练。这种方法虽然样本效率高,但存在一个根本问题:后期融合架构是否是构建通用多模态模型的最佳选择?是否存在更简单、更高效的架构?
核心思路:论文的核心思路是重新审视原生多模态模型(NMM)的设计,即从头开始在所有模态上训练的模型。通过对比早期融合和后期融合架构,探索哪种架构在性能、训练效率和部署方面更具优势。论文假设,早期融合架构可能具有潜在的优势,尤其是在模型规模较小时。
技术框架:论文构建了包含早期融合和后期融合架构的NMM模型。早期融合架构直接将图像像素输入到模型中,无需图像编码器或tokenizer。后期融合架构则使用预训练的图像编码器提取图像特征,然后将这些特征与文本信息融合。论文训练了457个不同架构和训练混合的模型,并系统地研究了它们的扩展法则。
关键创新:论文的关键创新在于对原生多模态模型的架构设计进行了全面的探索,并揭示了早期融合架构的潜在优势。与依赖预训练组件的后期融合架构不同,早期融合架构更加简洁高效,并且在模型规模较小时表现出更强的性能。此外,论文还探索了混合专家(MoE)模型在多模态学习中的应用,并证明了MoE可以帮助模型学习模态特定的权重,从而提高性能。
关键设计:论文的关键设计包括:1) 对比了不同的融合策略(早期和后期);2) 系统地研究了模型规模、训练数据量和训练混合对模型性能的影响;3) 探索了混合专家(MoE)模型在多模态学习中的应用;4) 采用了多种评估指标来全面评估模型的性能,包括图像字幕生成、视觉问答等任务。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在参数量较少的情况下,早期融合架构的性能优于后期融合架构。例如,在图像字幕生成任务中,早期融合模型在相同参数量下取得了更高的BLEU分数。此外,结合混合专家(MoE)模型可以进一步提高早期融合架构的性能,使其在各种多模态任务中都具有竞争力。
🎯 应用场景
该研究成果可应用于各种多模态学习任务,例如图像字幕生成、视觉问答、视频理解等。更高效的原生多模态模型可以降低训练和部署成本,促进多模态人工智能技术的普及。此外,早期融合架构的优势为未来的多模态模型设计提供了新的思路。
📄 摘要(原文)
Building general-purpose models that can effectively perceive the world through multimodal signals has been a long-standing goal. Current approaches involve integrating separately pre-trained components, such as connecting vision encoders to LLMs and continuing multimodal training. While such approaches exhibit remarkable sample efficiency, it remains an open question whether such late-fusion architectures are inherently superior. In this work, we revisit the architectural design of native multimodal models (NMMs)-those trained from the ground up on all modalities-and conduct an extensive scaling laws study, spanning 457 trained models with different architectures and training mixtures. Our investigation reveals no inherent advantage to late-fusion architectures over early-fusion ones, which do not rely on image encoders or tokenizers. On the contrary, early-fusion exhibits stronger performance at lower parameter counts, is more efficient to train, and is easier to deploy. Motivated by the strong performance of the early-fusion architectures, we show that incorporating Mixture of Experts (MoEs) allows models to learn modality-specific weights, significantly benefiting performance.