MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices
作者: Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen
分类: cs.CV
发布日期: 2023-12-28 (更新: 2023-12-30)
备注: Tech Report
🔗 代码/项目: GITHUB
💡 一句话要点
MobileVLM:面向移动设备的高效、强大且开放的视觉语言助手
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动设备 视觉语言模型 多模态学习 轻量级模型 高效推理
📋 核心要点
- 现有视觉语言模型通常计算量大,难以在移动设备上高效部署。
- MobileVLM通过轻量级网络设计和高效跨模态交互,实现了在移动设备上的快速推理。
- 实验表明,MobileVLM在移动设备上实现了领先的推理速度,同时保持了与大型模型相当的性能。
📝 摘要(中文)
本文提出了MobileVLM,一个旨在移动设备上运行的多模态视觉语言模型(MMVLM)。它融合了大量面向移动设备的架构设计和技术,包括从头开始训练的参数规模为1.4B和2.7B的语言模型,一个以CLIP方式预训练的多模态视觉模型,以及通过高效投影器实现的跨模态交互。我们在几个典型的VLM基准上评估了MobileVLM。我们的模型展示了与一些更大的模型相当的性能。更重要的是,我们测量了在Qualcomm Snapdragon 888 CPU和NVIDIA Jeston Orin GPU上的推理速度,分别获得了21.5 tokens/秒和65.3 tokens/秒的最先进性能。我们的代码将在https://github.com/Meituan-AutoML/MobileVLM上提供。
🔬 方法详解
问题定义:现有视觉语言模型(VLM)通常参数量巨大,计算复杂度高,难以直接部署在资源受限的移动设备上。这限制了VLM在移动应用中的广泛应用,例如实时图像理解、智能助手等。现有方法通常侧重于提升模型精度,而忽略了移动设备上的推理效率。
核心思路:MobileVLM的核心思路是设计一个轻量级但功能强大的VLM,使其能够在移动设备上高效运行。这通过优化模型架构、减少参数量、以及采用高效的跨模态交互方式来实现。目标是在精度和速度之间取得平衡,使得模型能够在移动设备上提供实时的视觉语言理解能力。
技术框架:MobileVLM的整体架构包括三个主要模块:视觉编码器、语言模型和跨模态投影器。视觉编码器负责提取图像特征,采用CLIP预训练的方式进行初始化。语言模型负责处理文本信息,并与视觉特征进行融合。跨模态投影器则负责将视觉特征映射到语言模型的嵌入空间,实现跨模态信息的交互。整个流程是:输入图像和文本,视觉编码器提取图像特征,文本经过语言模型编码,然后通过跨模态投影器将视觉特征融入语言模型,最后输出视觉语言理解的结果。
关键创新:MobileVLM的关键创新在于其面向移动设备的设计理念。具体体现在以下几个方面:1) 轻量级的语言模型:从头开始训练了参数量较小的语言模型,降低了计算复杂度。2) 高效的跨模态投影器:设计了高效的投影器,减少了跨模态交互的计算开销。3) 针对移动设备的优化:在模型设计和训练过程中,充分考虑了移动设备的资源限制,例如内存大小和计算能力。
关键设计:MobileVLM使用了1.4B和2.7B参数规模的语言模型,从头开始训练。视觉编码器采用CLIP预训练模型。跨模态投影器采用线性层或MLP结构,具体参数设置未知。损失函数包括语言建模损失和跨模态对齐损失,具体形式未知。推理速度在Qualcomm Snapdragon 888 CPU和NVIDIA Jeston Orin GPU上进行了测量。
📊 实验亮点
MobileVLM在移动设备上实现了最先进的推理速度,在Qualcomm Snapdragon 888 CPU上达到21.5 tokens/秒,在NVIDIA Jeston Orin GPU上达到65.3 tokens/秒。同时,MobileVLM在多个VLM基准测试中表现出与更大模型相当的性能,证明了其在精度和效率之间的良好平衡。
🎯 应用场景
MobileVLM具有广泛的应用前景,例如移动端的智能图像搜索、实时视觉问答、增强现实应用、智能助手等。它可以帮助用户更好地理解周围环境,并提供更智能化的服务。未来,MobileVLM有望成为移动设备上视觉语言理解的重要基础设施,推动移动人工智能的发展。
📄 摘要(原文)
We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.