MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

作者: Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen

分类: cs.CV

发布日期: 2023-12-28 (更新: 2023-12-30)

备注: Tech Report

🔗 代码/项目: GITHUB

💡 一句话要点

MobileVLM：面向移动设备的高效、强大且开放的视觉语言助手

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 移动设备 视觉语言模型 多模态学习 轻量级模型 高效推理

📋 核心要点

现有视觉语言模型通常计算量大，难以在移动设备上高效部署。
MobileVLM通过轻量级网络设计和高效跨模态交互，实现了在移动设备上的快速推理。
实验表明，MobileVLM在移动设备上实现了领先的推理速度，同时保持了与大型模型相当的性能。

📝 摘要（中文）

本文提出了MobileVLM，一个旨在移动设备上运行的多模态视觉语言模型（MMVLM）。它融合了大量面向移动设备的架构设计和技术，包括从头开始训练的参数规模为1.4B和2.7B的语言模型，一个以CLIP方式预训练的多模态视觉模型，以及通过高效投影器实现的跨模态交互。我们在几个典型的VLM基准上评估了MobileVLM。我们的模型展示了与一些更大的模型相当的性能。更重要的是，我们测量了在Qualcomm Snapdragon 888 CPU和NVIDIA Jeston Orin GPU上的推理速度，分别获得了21.5 tokens/秒和65.3 tokens/秒的最先进性能。我们的代码将在https://github.com/Meituan-AutoML/MobileVLM上提供。

🔬 方法详解

问题定义：现有视觉语言模型（VLM）通常参数量巨大，计算复杂度高，难以直接部署在资源受限的移动设备上。这限制了VLM在移动应用中的广泛应用，例如实时图像理解、智能助手等。现有方法通常侧重于提升模型精度，而忽略了移动设备上的推理效率。

核心思路：MobileVLM的核心思路是设计一个轻量级但功能强大的VLM，使其能够在移动设备上高效运行。这通过优化模型架构、减少参数量、以及采用高效的跨模态交互方式来实现。目标是在精度和速度之间取得平衡，使得模型能够在移动设备上提供实时的视觉语言理解能力。

技术框架：MobileVLM的整体架构包括三个主要模块：视觉编码器、语言模型和跨模态投影器。视觉编码器负责提取图像特征，采用CLIP预训练的方式进行初始化。语言模型负责处理文本信息，并与视觉特征进行融合。跨模态投影器则负责将视觉特征映射到语言模型的嵌入空间，实现跨模态信息的交互。整个流程是：输入图像和文本，视觉编码器提取图像特征，文本经过语言模型编码，然后通过跨模态投影器将视觉特征融入语言模型，最后输出视觉语言理解的结果。

关键创新：MobileVLM的关键创新在于其面向移动设备的设计理念。具体体现在以下几个方面：1) 轻量级的语言模型：从头开始训练了参数量较小的语言模型，降低了计算复杂度。2) 高效的跨模态投影器：设计了高效的投影器，减少了跨模态交互的计算开销。3) 针对移动设备的优化：在模型设计和训练过程中，充分考虑了移动设备的资源限制，例如内存大小和计算能力。

关键设计：MobileVLM使用了1.4B和2.7B参数规模的语言模型，从头开始训练。视觉编码器采用CLIP预训练模型。跨模态投影器采用线性层或MLP结构，具体参数设置未知。损失函数包括语言建模损失和跨模态对齐损失，具体形式未知。推理速度在Qualcomm Snapdragon 888 CPU和NVIDIA Jeston Orin GPU上进行了测量。

📊 实验亮点

MobileVLM在移动设备上实现了最先进的推理速度，在Qualcomm Snapdragon 888 CPU上达到21.5 tokens/秒，在NVIDIA Jeston Orin GPU上达到65.3 tokens/秒。同时，MobileVLM在多个VLM基准测试中表现出与更大模型相当的性能，证明了其在精度和效率之间的良好平衡。

🎯 应用场景

MobileVLM具有广泛的应用前景，例如移动端的智能图像搜索、实时视觉问答、增强现实应用、智能助手等。它可以帮助用户更好地理解周围环境，并提供更智能化的服务。未来，MobileVLM有望成为移动设备上视觉语言理解的重要基础设施，推动移动人工智能的发展。

📄 摘要（原文）

We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册