Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models

作者: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai

分类: cs.CV, cs.CL

发布日期: 2025-07-16

🔗 代码/项目: GITHUB

💡 一句话要点

提出Mono-InternVL-1.5，一种更经济高效的单体多模态大语言模型，通过改进的预训练策略和优化推理加速，降低训练和推理成本。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 单体模型 视觉预训练 混合专家模型 Delta Tuning 推理加速 内生视觉预训练

📋 核心要点

现有单体多模态大语言模型存在优化不稳定和灾难性遗忘问题，限制了其性能和训练效率。
通过将新的视觉参数空间嵌入预训练LLM，并采用delta tuning，实现从噪声数据中稳定学习视觉知识。
Mono-InternVL-1.5通过改进的内生视觉预训练和优化的推理加速，显著降低了训练和推理成本，同时保持了竞争力的性能。

📝 摘要（中文）

本文关注单体多模态大语言模型（MLLM），它将视觉编码和语言解码集成到单个模型中。现有的单体MLLM结构和预训练策略通常面临优化不稳定和灾难性遗忘的问题。为了解决这些挑战，我们的核心思想是将新的视觉参数空间嵌入到预训练的LLM中，从而通过delta tuning实现从噪声数据中稳定学习视觉知识。基于此，我们首先引入了Mono-InternVL，一种先进的单体MLLM，它通过多模态混合专家架构整合了一组视觉专家。此外，我们为Mono-InternVL设计了一种创新的内生视觉预训练（EViP），以通过渐进式学习最大化其视觉能力。Mono-InternVL在性能上与现有MLLM相比具有竞争力，但数据成本相对较高。因此，我们进一步提出了Mono-InternVL-1.5，一种更经济且更强大的单体MLLM，配备了改进的EViP（EViP++）。EViP++为Mono-InternVL-1.5引入了额外的视觉注意力专家，并以高效的方式重新组织了预训练过程。在推理过程中，它包含一个融合的CUDA内核来加速其MoE操作。通过这些设计，Mono-InternVL-1.5显著降低了训练和推理成本，同时保持了与Mono-InternVL相当的性能。为了评估我们的方法，我们进行了跨15个基准的广泛实验。结果表明，Mono-InternVL在15个基准中的12个上优于现有的单体MLLM，例如，在OCRBench上比Emu3提高了114个百分点。与其模块化对应物InternVL-1.5相比，Mono-InternVL-1.5实现了相似的多模态性能，同时将首个token的延迟降低了高达69%。

🔬 方法详解

问题定义：论文旨在解决单体多模态大语言模型（MLLM）训练过程中存在的优化不稳定和灾难性遗忘问题。现有方法通常难以在保持语言能力的同时有效学习视觉知识，导致模型性能受限且训练成本高昂。

核心思路：论文的核心思路是将视觉知识的学习过程解耦，通过delta tuning的方式将新的视觉参数空间嵌入到预训练的LLM中。这种方法允许模型在不破坏原有语言知识的前提下，稳定地学习视觉信息，从而避免灾难性遗忘。同时，通过改进的预训练策略和推理优化，降低训练和推理成本。

技术框架：Mono-InternVL-1.5的整体架构基于预训练的LLM，并引入了视觉专家模块。具体流程包括：1) 使用内生视觉预训练（EViP++）策略，逐步训练视觉专家模块，使其具备处理视觉信息的能力；2) 通过delta tuning将训练好的视觉专家模块嵌入到预训练的LLM中；3) 在下游任务上进行微调，以适应特定任务的需求。推理阶段，使用融合的CUDA内核加速MoE操作。

关键创新：论文的关键创新在于：1) 提出了内生视觉预训练（EViP++）策略，通过渐进式学习最大化视觉能力，并降低数据成本；2) 采用delta tuning的方式，将视觉知识嵌入到预训练的LLM中，避免灾难性遗忘；3) 使用融合的CUDA内核加速MoE操作，降低推理延迟。

关键设计：EViP++引入了额外的视觉注意力专家，并重新组织了预训练过程，使其更加高效。Delta tuning通过只更新少量参数，避免破坏预训练LLM的知识。融合的CUDA内核针对MoE操作进行了优化，提高了推理速度。具体的参数设置和损失函数细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

Mono-InternVL在15个基准测试中的12个上超越了现有的单体MLLM，例如在OCRBench上比Emu3提高了114个百分点。Mono-InternVL-1.5在保持与InternVL-1.5相似的多模态性能的同时，将首个token的延迟降低了高达69%，显著提升了推理效率。

🎯 应用场景

该研究成果可广泛应用于需要理解图像和文本信息的场景，例如智能客服、视觉问答、图像描述生成、OCR识别等。通过降低训练和推理成本，使得单体多模态大语言模型能够更容易地部署到资源受限的设备上，促进多模态人工智能技术的普及。

📄 摘要（原文）

This paper focuses on monolithic Multimodal Large Language Models (MLLMs), which integrate visual encoding and language decoding into a single model. Existing structures and pre-training strategies for monolithic MLLMs often suffer from unstable optimization and catastrophic forgetting. To address these challenges, our key idea is to embed a new visual parameter space into a pre-trained LLM, enabling stable learning of visual knowledge from noisy data via delta tuning. Based on this principle, we first introduce Mono-InternVL, an advanced monolithic MLLM that incorporates a set of visual experts through a multimodal mixture-of-experts architecture. In addition, we design an innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize its visual capabilities via progressive learning. Mono-InternVL achieves competitive performance against existing MLLMs but also leads to relatively expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++ introduces additional visual attention experts to Mono-InternVL-1.5 and re-organizes the pre-training process in an efficient manner. During inference, it includes a fused CUDA kernel to speed up its MoE operations. With these designs, Mono-InternVL-1.5 significantly reduces training and inference costs, while still maintaining competitive performance with Mono-InternVL. To evaluate our approach, we conduct extensive experiments across 15 benchmarks. Results demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves similar multimodal performance while reducing first-token latency by up to 69%. Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.

Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理