An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
作者: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
分类: cs.CV, cs.CL
发布日期: 2025-04-21
💡 一句话要点
Quicksviewer:利用强化压缩视频块的高效视频理解LMM
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频理解 大型多模态模型 动态压缩 Gumbel Softmax 强化学习 视频分割 时空冗余
📋 核心要点
- 现有LMM均匀处理视频帧,忽略了视频时间信息密度的差异,导致计算冗余。
- Quicksviewer通过Gumbel Softmax将视频分割成不同密度的立方体,并统一重采样,实现动态压缩。
- 实验表明,Quicksviewer在Video-MME上以更少的tokens实现了SOTA,并展现了模型能力的幂律缩放。
📝 摘要(中文)
大型多模态模型(LMM)均匀地感知视频帧,对于时间信息密度本质上不同的视频,这造成了计算上的低效。本文提出Quicksviewer,一种具有新的感知范式的LMM,它使用Gumbel Softmax将非均匀密度的视频划分为不同的立方体,然后对每个立方体进行统一的重采样,以实现高效的视频理解。这种简单直观的方法基于视频的时间密度动态地在线压缩视频,显著降低了时空冗余(总体压缩率为45倍),同时实现了具有大感受野的高效训练。我们通过三个渐进的阶段从语言骨干网络训练模型,每个阶段都包含平均420秒/1fps的冗长视频,这得益于感知效率。仅使用0.8M个视频-文本样本进行训练,我们的模型在准确率上比采用固定划分策略的直接基线高出8.72,证明了其在性能上的有效性。在Video-MME上,Quicksviewer在使用基线所需每个帧的tokens的5%的情况下,实现了适度序列长度下的SOTA。通过这种范式,增加输入帧的数量揭示了模型能力的清晰幂律。经验验证表明,由立方体网络生成的片段有助于分析视频中的连续事件。
🔬 方法详解
问题定义:现有的大型多模态模型(LMMs)在处理视频时,通常采用均匀采样策略,即对视频的每一帧都进行同等程度的处理。然而,实际视频中不同片段的信息密度差异很大,均匀采样导致计算资源的浪费,尤其是在信息冗余的片段上。因此,如何根据视频内容动态调整采样策略,提高计算效率,是本文要解决的核心问题。
核心思路:Quicksviewer的核心思路是根据视频的时间密度,动态地将视频分割成不同大小的立方体(cubes),并对每个立方体进行统一的重采样。这种方法类似于视频编码中的可变码率技术,旨在减少时空冗余,提高计算效率。通过这种方式,模型可以更加关注信息丰富的片段,而减少对冗余片段的处理。
技术框架:Quicksviewer的整体框架包含以下几个主要模块:1) 视频立方体分割网络:使用Gumbel Softmax将视频分割成不同大小的立方体。2) 统一重采样模块:对每个立方体进行统一的重采样,生成固定数量的帧。3) 语言骨干网络:使用预训练的语言模型作为骨干网络,对重采样后的视频帧进行编码。4) 训练阶段:模型通过三个渐进的阶段进行训练,逐步引入更长的视频序列。
关键创新:Quicksviewer的关键创新在于其动态视频立方体分割策略。与传统的固定分割策略相比,Quicksviewer能够根据视频内容自适应地调整分割大小,从而更好地捕捉视频中的关键信息。此外,使用Gumbel Softmax进行分割,使得分割过程可微,从而可以进行端到端的训练。
关键设计:在视频立方体分割网络中,使用了Gumbel Softmax来生成分割点。Gumbel Softmax是一种连续松弛技术,可以使得离散的分割决策变得可微,从而可以使用梯度下降进行优化。此外,模型还采用了强化学习的方法来优化分割策略,以最大化模型的性能。损失函数包括视频文本匹配损失和分割策略的正则化项。
🖼️ 关键图片
📊 实验亮点
Quicksviewer在Video-MME数据集上取得了显著的性能提升,在适度序列长度下,仅使用基线模型5%的tokens就达到了SOTA。与采用固定划分策略的基线模型相比,Quicksviewer在准确率上提升了高达8.72。实验还表明,增加输入帧的数量可以显著提高Quicksviewer的性能,展现了模型能力的幂律缩放。
🎯 应用场景
Quicksviewer具有广泛的应用前景,例如视频监控、自动驾驶、视频摘要、视频检索等领域。通过动态压缩视频,Quicksviewer可以显著降低计算成本和存储需求,使得在资源受限的设备上进行视频理解成为可能。此外,Quicksviewer还可以用于分析视频中的连续事件,例如识别视频中的动作序列和事件发生的时间。
📄 摘要(原文)
Large Multimodal Models (LMMs) uniformly perceive video frames, creating computational inefficiency for videos with inherently varying temporal information density. This paper present \textbf{Quicksviewer}, an LMM with new perceiving paradigm that partitions a video of nonuniform density into varying cubes using Gumbel Softmax, followed by a unified resampling for each cube to achieve efficient video understanding. This simple and intuitive approach dynamically compress video online based on its temporal density, significantly reducing spatiotemporal redundancy (overall 45$\times$ compression rate), while enabling efficient training with large receptive field. We train the model from a language backbone through three progressive stages, each incorporating lengthy videos on average of 420s/1fps thanks to the perceiving efficiency. With only 0.8M total video-text samples for training, our model outperforms the direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in accuracy, demonstrating the effectiveness in performance. On Video-MME, Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\% of tokens per frame required by baselines. With this paradigm, scaling up the number of input frames reveals a clear power law of the model capabilities. It is also empirically verified that the segments generated by the cubing network can help for analyzing continuous events in videos.