MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs
作者: Junpeng Ma, Qizhe Zhang, Ming Lu, Zhibin Wang, Qiang Zhou, Jun Song, Shanghang Zhang
分类: cs.CV
发布日期: 2025-08-28
备注: 10 pages, 3 figures
💡 一句话要点
MMG-Vid:通过分段和Token级最大化边际收益,提升视频LLM效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 视觉Token剪枝 边际收益最大化 视频分段 时间依赖性建模
📋 核心要点
- 视频LLM计算成本高昂,现有Token剪枝方法忽略了视频帧的时序依赖和动态特性。
- MMG-Vid通过分段和Token两级最大化边际收益,动态分配Token预算并建模帧间帧内关系。
- 实验表明,MMG-Vid在显著减少Token数量的同时,保持了接近原始模型的性能。
📝 摘要(中文)
本文提出了一种名为MMG-Vid的免训练视觉Token剪枝框架,旨在解决视频大语言模型(VLLM)中视觉Token过多导致的计算挑战。该框架通过在分段级别和Token级别最大化边际收益来消除冗余。首先,基于帧相似性将视频分割成段,并动态地为每个段分配Token预算,以最大化每个段的边际收益。其次,提出了一种时间引导的DPC算法,该算法联合建模帧间唯一性和帧内多样性,从而最大化每个Token的边际收益。通过结合这两个阶段,MMG-Vid可以最大限度地利用有限的Token预算,在保持强大性能的同时显著提高效率。大量实验表明,MMG-Vid可以保持超过99.5%的原始性能,同时有效减少75%的视觉Token,并在LLaVA-OneVision-7B上将预填充阶段加速3.9倍。
🔬 方法详解
问题定义:视频大语言模型(VLLM)在视频理解方面表现出色,但过多的视觉Token给实际应用带来了巨大的计算挑战。现有的视觉Token剪枝方法通常将视频理解视为多帧任务,忽略了视频帧的动态特性和时间依赖性,导致剪枝效率不高。
核心思路:MMG-Vid的核心思路是通过最大化边际收益来消除视觉Token的冗余。具体来说,它在两个层面上进行优化:首先是分段层面,根据视频内容的相似性将视频分割成不同的段,并为每个段动态分配Token预算;其次是Token层面,通过建模帧间唯一性和帧内多样性,选择最具代表性的Token。
技术框架:MMG-Vid框架主要包含两个阶段:1) 基于帧相似性的视频分段和Token预算分配;2) 时间引导的DPC(Diversity Preserving Clustering)Token选择算法。首先,视频被分割成若干个片段,每个片段根据其内容复杂度被分配一定数量的Token。然后,在每个片段内部,DPC算法用于选择最具代表性的Token,同时保证帧间差异性和帧内多样性。
关键创新:MMG-Vid的关键创新在于其分段和Token两级联合优化策略。与以往的静态Token剪枝方法不同,MMG-Vid能够根据视频内容的动态变化自适应地调整Token预算,从而更有效地利用有限的计算资源。此外,时间引导的DPC算法能够更好地捕捉视频中的关键信息,避免信息丢失。
关键设计:在视频分段阶段,可以使用各种帧相似性度量方法,例如基于像素差异或特征向量距离。Token预算的分配可以基于片段的复杂度,例如片段中运动物体的数量或场景变化的频率。时间引导的DPC算法的关键在于如何定义帧间唯一性和帧内多样性。一种可能的方法是使用帧之间的互信息或KL散度来衡量帧间唯一性,并使用Token之间的余弦相似度来衡量帧内多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MMG-Vid在LLaVA-OneVision-7B模型上,能够在减少75%视觉Token的同时,保持超过99.5%的原始性能。此外,MMG-Vid还将预填充阶段加速了3.9倍。这些结果表明,MMG-Vid是一种高效且有效的视频LLM加速方法。
🎯 应用场景
MMG-Vid可应用于各种视频理解任务,如视频摘要、视频检索、视频问答等。通过减少视觉Token的数量,可以显著降低VLLM的计算成本,使其更容易部署在资源受限的设备上,例如移动设备或嵌入式系统。此外,MMG-Vid还可以用于加速视频内容的分析和处理,提高视频应用的响应速度。
📄 摘要(原文)
Video Large Language Models (VLLMs) excel in video understanding, but their excessive visual tokens pose a significant computational challenge for real-world applications. Current methods aim to enhance inference efficiency by visual token pruning. However, they do not consider the dynamic characteristics and temporal dependencies of video frames, as they perceive video understanding as a multi-frame task. To address these challenges, we propose MMG-Vid, a novel training-free visual token pruning framework that removes redundancy by Maximizing Marginal Gains at both segment-level and token-level. Specifically, we first divide the video into segments based on frame similarity, and then dynamically allocate the token budget for each segment to maximize the marginal gain of each segment. Subsequently, we propose a temporal-guided DPC algorithm that jointly models inter-frame uniqueness and intra-frame diversity, thereby maximizing the marginal gain of each token. By combining both stages, MMG-Vid can maximize the utilization of the limited token budget, significantly improving efficiency while maintaining strong performance. Extensive experiments demonstrate that MMG-Vid can maintain over 99.5% of the original performance, while effectively reducing 75% visual tokens and accelerating the prefilling stage by 3.9x on LLaVA-OneVision-7B. Code will be released soon.