ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling

📄 arXiv: 2603.22911v1 📥 PDF

作者: Shaobo Ju, Baiyang Song, Tao Chen, Jiapeng Zhang, Qiong Wu, Chao Chang, HuaiXi Wang, Yiyi Zhou, Rongrong Ji

分类: cs.CV, cs.AI

发布日期: 2026-03-24


💡 一句话要点

ForestPrune:通过时空森林建模实现视频多模态大语言模型的高比例视觉Token压缩

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频多模态大语言模型 Token压缩 时空森林建模 视频理解 免训练剪枝

📋 核心要点

  1. 现有视频MLLM的Token压缩方法对时序信息建模不足,导致压缩比例受限。
  2. ForestPrune通过构建时空Token森林,综合考虑语义、空间和时间约束,实现全局最优剪枝。
  3. 实验表明,ForestPrune在保持高准确率的同时,显著提高了Token压缩比例,并优于现有方法。

📝 摘要(中文)

Token压缩因其在计算和内存开销方面的巨大节省,已成为多模态大语言模型(MLLM)的研究热点,并在图像-语言任务中取得了显著进展。然而,对于视频,现有方法在高比例Token压缩方面仍然不足。我们将这种不足归因于对时间和连续视频内容的不充分建模,并提出了一种新颖的、免训练的视频MLLM Token剪枝方法,称为ForestPrune,它通过时空森林建模实现有效和高比例的剪枝。在实践中,ForestPrune基于语义、空间和时间约束构建跨视频帧的Token森林,从而对视频进行整体理解。之后,ForestPrune基于树深度和节点角色评估Token树和节点的重要性,从而获得全局最优的剪枝决策。为了验证ForestPrune,我们将其应用于两个具有代表性的视频MLLM,即LLaVA-Video和LLaVA-OneVision,并在大量视频基准上进行了广泛的实验。实验结果不仅显示了其对视频MLLM的巨大有效性,例如,对于LLaVA-OneVision,在减少90%的Token的同时,保持了95.8%的平均准确率,而且还显示了其优于所比较的Token压缩方法的性能和效率,例如,在MLVU上比FrameFusion在LLaVA-Video上提高了+10.1%的准确率,并减少了-81.4%的剪枝时间。

🔬 方法详解

问题定义:现有视频多模态大语言模型在处理视频时,需要处理大量的视觉Token,导致计算和内存开销巨大。现有的Token压缩方法,特别是针对图像设计的,无法充分利用视频的时序信息,导致压缩比例不高,性能下降明显。因此,需要一种能够有效压缩视频Token,同时保持模型性能的方法。

核心思路:ForestPrune的核心思路是通过构建时空Token森林来建模视频内容。该方法将视频帧中的Token视为森林中的节点,并根据语义、空间和时间关系将这些节点连接起来,形成Token树。通过分析Token树的结构和节点的重要性,可以确定哪些Token可以被安全地剪枝,从而实现高比例的Token压缩。这种方法能够更好地捕捉视频的时序信息,避免了简单地对单帧图像进行Token压缩所带来的信息损失。

技术框架:ForestPrune主要包含以下几个阶段:1) Token嵌入:使用预训练的视觉编码器提取视频帧的Token嵌入。2) 时空森林构建:基于Token的语义相似度、空间位置和时间关系,构建跨视频帧的Token森林。具体来说,首先在相邻帧之间建立Token的对应关系,然后将这些对应关系连接起来,形成Token树。3) 重要性评估:根据Token树的深度和节点在树中的角色,评估每个Token的重要性。例如,位于树根的Token通常比位于叶子节点的Token更重要。4) Token剪枝:根据Token的重要性得分,选择性地剪枝掉一部分Token。

关键创新:ForestPrune的关键创新在于提出了时空森林建模的方法,将视频Token组织成具有层次结构的森林,从而能够更好地捕捉视频的时序信息和上下文关系。与现有的Token压缩方法相比,ForestPrune能够更准确地评估Token的重要性,并实现更高的压缩比例,同时保持模型的性能。此外,ForestPrune是一种免训练的方法,可以直接应用于现有的视频MLLM,无需额外的训练开销。

关键设计:在时空森林构建阶段,论文使用了余弦相似度来衡量Token的语义相似度,并使用空间距离来衡量Token的空间关系。在重要性评估阶段,论文使用了树深度和节点度等指标来衡量Token的重要性。具体的剪枝策略是基于一个全局阈值,该阈值根据目标压缩比例动态调整。论文没有提及具体的损失函数或网络结构设计,因为ForestPrune是一种免训练的后处理方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ForestPrune在LLaVA-OneVision上实现了90%的Token压缩,同时保持了95.8%的平均准确率。在MLVU基准测试中,ForestPrune比FrameFusion在LLaVA-Video上提高了10.1%的准确率,并将剪枝时间减少了81.4%。这些结果表明,ForestPrune在视频Token压缩方面具有显著的优势。

🎯 应用场景

ForestPrune可应用于各种视频多模态大语言模型,尤其是在资源受限的场景下,如移动设备或边缘计算平台。通过减少计算和内存开销,可以提高视频理解任务的效率和可扩展性,例如视频问答、视频摘要、视频检索等。该方法还有助于降低视频数据传输的带宽需求,促进视频内容的更广泛应用。

📄 摘要(原文)

Due to the great saving of computation and memory overhead, token compression has become a research hot-spot for MLLMs and achieved remarkable progress in image-language tasks. However, for the video, existing methods still fall short of high-ratio token compression. We attribute this shortcoming to the insufficient modeling of temporal and continual video content, and propose a novel and training-free token pruning method for video MLLMs, termed ForestPrune, which achieves effective and high-ratio pruning via Spatial-temporal Forest Modeling. In practice, ForestPrune construct token forests across video frames based on the semantic, spatial and temporal constraints, making an overall comprehension of videos. Afterwards, ForestPrune evaluates the importance of token trees and nodes based on tree depth and node roles, thereby obtaining a globally optimal pruning decision. To validate ForestPrune, we apply it to two representative video MLLMs, namely LLaVA-Video and LLaVA-OneVision, and conduct extensive experiments on a bunch of video benchmarks. The experimental results not only show the great effectiveness for video MLLMs, e.g., retaining 95.8% average accuracy while reducing 90% tokens for LLaVA-OneVision, but also show its superior performance and efficiency than the compared token compression methods, e.g., +10.1% accuracy on MLVU and -81.4% pruning time than FrameFusion on LLaVA-Video.