InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

📄 arXiv: 2504.10479v3 📥 PDF

作者: Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Hao Tian, Yuchen Duan, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Xuehui Wang, Yue Cao, Yangzhou Liu, Xingguang Wei, Hongjie Zhang, Haomin Wang, Weiye Xu, Hao Li, Jiahao Wang, Nianchen Deng, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Han Lv, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang

分类: cs.CV

发布日期: 2025-04-14 (更新: 2025-04-19)

备注: Technical Report


💡 一句话要点

InternVL3:探索开源多模态模型的高级训练和测试方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 预训练 视觉语言模型 可变位置编码 监督微调 偏好优化

📋 核心要点

  1. 现有MLLM通常采用后训练方式,将文本LLM适配到多模态,存在训练复杂、对齐困难等问题。
  2. InternVL3采用原生多模态预训练范式,在单一阶段联合学习多模态和语言能力,简化训练流程。
  3. InternVL3-78B在MMMU基准测试中取得72.2分,在开源MLLM中达到SOTA,与闭源模型具有竞争力。

📝 摘要(中文)

InternVL3是InternVL系列的重大进展,采用原生多模态预训练范式。它不是将纯文本大型语言模型(LLM)适配为支持视觉输入的多模态大型语言模型(MLLM),而是在单个预训练阶段,从多样化的多模态数据和纯文本语料库中联合学习多模态和语言能力。这种统一的训练范式有效地解决了传统MLLM事后训练流程中常见的复杂性和对齐挑战。为了进一步提高性能和可扩展性,InternVL3结合了可变视觉位置编码(V2PE)以支持扩展的多模态上下文,采用了高级的后训练技术,如监督微调(SFT)和混合偏好优化(MPO),并采用了测试时缩放策略以及优化的训练基础设施。广泛的实证评估表明,InternVL3在各种多模态任务中表现出卓越的性能。特别是,InternVL3-78B在MMMU基准测试中取得了72.2分,在开源MLLM中树立了新的最先进水平。其能力与领先的专有模型(包括ChatGPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro)相比仍然具有很强的竞争力,同时保持了强大的纯语言能力。为了追求开放科学原则,我们将公开发布训练数据和模型权重,以促进下一代MLLM的进一步研究和开发。

🔬 方法详解

问题定义:现有的大型多模态模型(MLLM)通常采用两阶段训练策略:首先预训练一个大型语言模型(LLM),然后通过额外的训练阶段,将视觉信息融入到LLM中。这种后训练(post-hoc training)方法引入了额外的复杂性,例如需要仔细设计视觉和语言特征的对齐方式,并且可能无法充分利用多模态数据中的内在关联。此外,如何有效地扩展模型以处理更长的多模态上下文也是一个挑战。

核心思路:InternVL3的核心思路是采用一种原生的多模态预训练范式,即在单个预训练阶段,同时学习多模态和语言能力。通过联合训练,模型能够更好地理解视觉和语言之间的关系,从而避免了后训练方法中存在的对齐问题。此外,引入可变视觉位置编码(V2PE)来支持更长的多模态上下文。

技术框架:InternVL3的整体框架包括以下几个主要组成部分:1) 多模态数据和纯文本数据的统一输入;2) 基于Transformer的模型架构,用于处理多模态和语言信息;3) 可变视觉位置编码(V2PE),用于支持扩展的多模态上下文;4) 监督微调(SFT)和混合偏好优化(MPO),用于进一步提升模型性能。训练流程包括预训练阶段,SFT阶段和MPO阶段。

关键创新:InternVL3的关键创新在于其原生的多模态预训练范式和可变视觉位置编码(V2PE)。原生的多模态预训练范式避免了后训练方法中存在的对齐问题,使得模型能够更好地理解视觉和语言之间的关系。V2PE允许模型处理更长的多模态上下文,从而提高了模型在复杂任务中的性能。

关键设计:InternVL3的关键设计包括:1) 统一的多模态和语言数据输入格式;2) 基于Transformer的模型架构,包括视觉编码器和语言解码器;3) 可变视觉位置编码(V2PE),允许模型处理不同长度的视觉序列;4) 监督微调(SFT),使用高质量的多模态指令数据来微调模型;5) 混合偏好优化(MPO),使用人类反馈数据来优化模型的偏好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InternVL3-78B在MMMU基准测试中取得了72.2分,超越了所有已知的开源MLLM。在其他多模态任务中,InternVL3也表现出卓越的性能,与领先的闭源模型(如ChatGPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro)相比具有竞争力。这些结果表明,InternVL3在多模态理解和推理方面取得了显著进展。

🎯 应用场景

InternVL3具有广泛的应用前景,包括但不限于:图像/视频理解、视觉问答、图像/视频生成、机器人控制、自动驾驶等。该模型能够理解复杂的视觉和语言信息,从而在各种实际应用中提供更准确、更智能的解决方案。开源发布将促进多模态大模型领域的研究和发展。

📄 摘要(原文)

We introduce InternVL3, a significant advancement in the InternVL series featuring a native multimodal pre-training paradigm. Rather than adapting a text-only large language model (LLM) into a multimodal large language model (MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and linguistic capabilities from both diverse multimodal data and pure-text corpora during a single pre-training stage. This unified training paradigm effectively addresses the complexities and alignment challenges commonly encountered in conventional post-hoc training pipelines for MLLMs. To further improve performance and scalability, InternVL3 incorporates variable visual position encoding (V2PE) to support extended multimodal contexts, employs advanced post-training techniques such as supervised fine-tuning (SFT) and mixed preference optimization (MPO), and adopts test-time scaling strategies alongside an optimized training infrastructure. Extensive empirical evaluations demonstrate that InternVL3 delivers superior performance across a wide range of multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its capabilities remain highly competitive with leading proprietary models, including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also maintaining strong pure-language proficiency. In pursuit of open-science principles, we will publicly release both the training data and model weights to foster further research and development in next-generation MLLMs.