Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model

作者: Abdelrahman Shaker, Muhammad Maaz, Chenhui Gou, Hamid Rezatofighi, Salman Khan, Fahad Shahbaz Khan

分类: cs.CV

发布日期: 2025-03-27

备注: Technical Report. Project Page: https://amshaker.github.io/Mobile-VideoGPT

🔗 代码/项目: GITHUB

💡 一句话要点

提出Mobile-VideoGPT，一种参数小于10亿的高效视频理解语言模型，实现实时吞吐。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频理解 多模态学习 轻量化模型 注意力机制 关键帧选择

📋 核心要点

现有视频理解模型计算量大、参数过多，推理速度慢，难以实际应用。
Mobile-VideoGPT采用轻量级双视觉编码器、高效投影器和小型语言模型，实现高效视频理解。
实验表明，Mobile-VideoGPT-0.5B在多个基准测试中优于现有0.5B参数模型，且参数更少，吞吐量更高。

📝 摘要（中文）

视频理解模型通常面临计算需求高、参数量大和推理速度慢的问题，这使得它们在实际应用中效率低下。为了解决这些挑战，我们提出了Mobile-VideoGPT，一个旨在以少于10亿参数运行的高效多模态框架。与传统的视频大型多模态模型（LMM）不同，Mobile-VideoGPT由轻量级的双视觉编码器、高效的投影器和一个小型语言模型（SLM）组成，从而实现实时吞吐量。为了进一步提高效率，我们提出了一种基于注意力的帧评分机制来选择关键帧，以及一个高效的token投影器，用于修剪冗余的视觉token并保留必要的上下文线索。我们在六个已建立的视频理解基准（例如，MVBench，EgoSchema，NextQA和PercepTest）上评估了我们的模型。结果表明，Mobile-VideoGPT-0.5B可以生成每秒高达46个token，同时优于现有的最先进的0.5B参数模型，平均高出6个点，参数减少40％，吞吐量提高2倍以上。我们的代码和模型可在https://github.com/Amshaker/Mobile-VideoGPT公开获得。

🔬 方法详解

问题定义：现有视频理解模型，特别是基于大型多模态模型（LMMs）的方法，通常需要大量的计算资源和参数，导致推理速度慢，难以部署在资源受限的设备上或进行实时应用。因此，如何在保持甚至提升性能的同时，显著降低模型的参数量和计算复杂度，是当前视频理解领域面临的一个重要挑战。

核心思路：Mobile-VideoGPT的核心思路是构建一个轻量级但高效的视频理解框架。它通过采用轻量级的双视觉编码器提取视频特征，利用高效的投影器将视觉特征映射到语言模型的嵌入空间，并使用小型语言模型（SLM）进行最终的理解和生成。此外，还引入了基于注意力的帧评分机制和token投影器，进一步减少冗余信息，提高效率。

技术框架：Mobile-VideoGPT的整体架构包括以下几个主要模块：1) 双视觉编码器：用于从视频帧中提取视觉特征，采用轻量级设计以减少计算量。2) 注意力帧评分模块：基于注意力机制对视频帧进行评分，选择关键帧以减少输入序列的长度。3) 高效Token投影器：将视觉token投影到语言模型的嵌入空间，并修剪冗余token，保留关键上下文信息。4) 小型语言模型（SLM）：用于对投影后的视觉特征进行理解和生成，采用小型化设计以提高推理速度。整个流程是：视频输入 -> 双视觉编码器 -> 注意力帧评分 -> Token投影 -> 小型语言模型 -> 文本输出。

关键创新：Mobile-VideoGPT的关键创新在于其整体的轻量化设计和针对视频理解任务的优化。具体包括：1) 轻量级双视觉编码器：相比于传统的视觉编码器，参数量更少，计算效率更高。2) 注意力帧评分机制：能够自适应地选择关键帧，减少冗余信息的处理。3) 高效Token投影器：能够有效地压缩视觉token，降低语言模型的输入维度。这些创新共同作用，使得Mobile-VideoGPT能够在保持甚至提升性能的同时，显著降低模型的参数量和计算复杂度。

关键设计：注意力帧评分模块使用Transformer Encoder结构，通过自注意力机制学习每一帧的重要性得分，选择得分高的帧作为关键帧。Token投影器使用线性层将视觉特征投影到语言模型的嵌入空间，并使用可学习的掩码矩阵来修剪冗余token。小型语言模型可以使用预训练的语言模型进行微调，也可以从头开始训练。损失函数通常包括语言模型损失和可选的辅助损失，例如帧评分的监督损失。

🖼️ 关键图片

📊 实验亮点

Mobile-VideoGPT-0.5B在多个视频理解基准测试中取得了显著的成果。例如，在MVBench、EgoSchema、NextQA和PercepTest等数据集上，Mobile-VideoGPT-0.5B的平均性能优于现有0.5B参数的模型6个百分点，同时参数减少了40%，吞吐量提高了2倍以上，达到了每秒46个token的生成速度。这些结果表明，Mobile-VideoGPT在效率和性能之间取得了良好的平衡。

🎯 应用场景

Mobile-VideoGPT具有广泛的应用前景，包括移动设备上的视频理解、智能监控、机器人导航、视频摘要生成、视频问答等。其轻量化和高效的特点使其能够部署在资源受限的设备上，实现实时的视频理解和交互。未来，可以进一步探索其在自动驾驶、增强现实等领域的应用。

📄 摘要（原文）

Video understanding models often struggle with high computational requirements, extensive parameter counts, and slow inference speed, making them inefficient for practical use. To tackle these challenges, we propose Mobile-VideoGPT, an efficient multimodal framework designed to operate with fewer than a billion parameters. Unlike traditional video large multimodal models (LMMs), Mobile-VideoGPT consists of lightweight dual visual encoders, efficient projectors, and a small language model (SLM), enabling real-time throughput. To further improve efficiency, we present an Attention-Based Frame Scoring mechanism to select the key-frames, along with an efficient token projector that prunes redundant visual tokens and preserves essential contextual cues. We evaluate our model across well-established six video understanding benchmarks (e.g., MVBench, EgoSchema, NextQA, and PercepTest). Our results show that Mobile-VideoGPT-0.5B can generate up to 46 tokens per second while outperforming existing state-of-the-art 0.5B-parameter models by 6 points on average with 40% fewer parameters and more than 2x higher throughput. Our code and models are publicly available at: https://github.com/Amshaker/Mobile-VideoGPT.

Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理