MiniCPM-V: A GPT-4V Level MLLM on Your Phone

📄 arXiv: 2408.01800v1 📥 PDF

作者: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun

分类: cs.CV

发布日期: 2024-08-03

备注: preprint


💡 一句话要点

MiniCPM-V:一款可在手机上部署的GPT-4V级别多模态大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 模型压缩 端侧部署 移动AI 图像识别 OCR 指令微调

📋 核心要点

  1. 现有MLLM模型参数量巨大,计算成本高昂,难以在移动设备等终端部署,限制了其在离线、隐私保护等场景的应用。
  2. MiniCPM-V通过架构、预训练和对齐等方面的优化,显著降低模型大小,使其能够在终端设备上高效运行。
  3. 实验结果表明,MiniCPM-V在多个基准测试中超越GPT-4V-1106等模型,并具备强大的OCR能力和多语言支持。

📝 摘要(中文)

多模态大语言模型(MLLMs)的快速发展正在重塑人工智能研究和产业格局,为实现下一个AI里程碑提供了有希望的途径。然而,MLLMs在实际应用中仍面临巨大挑战,主要来自运行具有大量参数和广泛计算的MLLM的高昂成本。因此,大多数MLLMs需要部署在高性能云服务器上,这极大地限制了其应用范围,例如移动、离线、能源敏感和隐私保护场景。本文介绍了MiniCPM-V,这是一系列可在终端设备上高效部署的MLLMs。通过整合架构、预训练和对齐方面的最新MLLM技术,最新的MiniCPM-Llama3-V 2.5具有以下显著特征:(1)强大的性能,在OpenCompass(一个涵盖11个流行基准的综合评估)上优于GPT-4V-1106、Gemini Pro和Claude 3;(2)强大的OCR能力和180万像素的高分辨率图像感知能力,支持任意宽高比;(3)具有低幻觉率的可信行为;(4)支持30多种语言的多语言支持;(5)可在手机上高效部署。更重要的是,MiniCPM-V可以被视为一个有希望的趋势的代表性例子:实现可用(例如,GPT-4V)级别性能的模型尺寸正在迅速减小,同时终端计算能力也在快速增长。这共同表明,部署在终端设备上的GPT-4V级别MLLMs正变得越来越可行,从而在不久的将来解锁更广泛的现实世界AI应用。

🔬 方法详解

问题定义:现有的大型多模态语言模型(MLLMs)虽然在性能上取得了显著进展,但由于其庞大的参数规模和计算需求,难以在资源受限的终端设备(如手机)上部署。这限制了它们在需要离线推理、低延迟响应或保护用户隐私等场景中的应用。现有方法难以兼顾高性能与低资源消耗,因此需要一种更高效的MLLM架构。

核心思路:MiniCPM-V的核心思路是通过模型压缩和优化,在保持甚至超越现有大型模型性能的同时,显著降低模型大小和计算复杂度,使其能够在终端设备上运行。这种设计旨在弥合高性能与可部署性之间的差距,从而扩展MLLM的应用范围。

技术框架:MiniCPM-V的技术框架主要包括以下几个关键模块:(1) 优化的模型架构:采用高效的网络结构,减少参数冗余。(2) 多阶段预训练:利用大规模多模态数据进行预训练,提升模型的基础能力。(3) 指令微调:通过指令微调,使模型更好地理解和执行用户指令。(4) 模型量化与压缩:采用模型量化、剪枝等技术,进一步降低模型大小和计算复杂度。

关键创新:MiniCPM-V最重要的技术创新在于其在模型压缩方面的突破。它能够在保持甚至超越GPT-4V等大型模型性能的同时,将模型大小显著降低,从而实现了在终端设备上的部署。这种创新打破了传统MLLM对计算资源的依赖,为更广泛的应用场景打开了大门。

关键设计:MiniCPM-V的关键设计包括:(1) 采用轻量级的视觉编码器,提取图像特征。(2) 使用高效的注意力机制,降低计算复杂度。(3) 设计专门的损失函数,优化模型在多模态任务上的表现。(4) 通过知识蒸馏,将大型模型的知识迁移到小型模型中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MiniCPM-V在OpenCompass基准测试中,性能超越GPT-4V-1106、Gemini Pro和Claude 3。同时,该模型具备强大的OCR能力,支持180万像素的高分辨率图像输入,并支持30多种语言。最重要的是,MiniCPM-V能够在手机等终端设备上高效运行,实现了GPT-4V级别性能的端侧部署。

🎯 应用场景

MiniCPM-V的潜在应用领域广泛,包括移动设备上的智能助手、离线翻译、图像识别、辅助驾驶等。它能够在保护用户隐私的前提下,提供高性能的AI服务,并有望推动AI技术在边缘计算领域的普及。此外,该模型还可以应用于教育、医疗等领域,为用户提供个性化的学习和诊断服务。

📄 摘要(原文)

The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future.