An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

作者: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua

分类: cs.CV, cs.CL

发布日期: 2025-04-21

💡 一句话要点

Quicksviewer：利用强化压缩视频块的高效视频理解LMM

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频理解 大型多模态模型 动态压缩 Gumbel Softmax 强化学习 视频分割 时空冗余

📋 核心要点

现有LMM均匀处理视频帧，忽略了视频时间信息密度的差异，导致计算冗余。
Quicksviewer通过Gumbel Softmax将视频分割成不同密度的立方体，并统一重采样，实现动态压缩。
实验表明，Quicksviewer在Video-MME上以更少的tokens实现了SOTA，并展现了模型能力的幂律缩放。

📝 摘要（中文）

大型多模态模型(LMM)均匀地感知视频帧，对于时间信息密度本质上不同的视频，这造成了计算上的低效。本文提出Quicksviewer，一种具有新的感知范式的LMM，它使用Gumbel Softmax将非均匀密度的视频划分为不同的立方体，然后对每个立方体进行统一的重采样，以实现高效的视频理解。这种简单直观的方法基于视频的时间密度动态地在线压缩视频，显著降低了时空冗余(总体压缩率为45倍)，同时实现了具有大感受野的高效训练。我们通过三个渐进的阶段从语言骨干网络训练模型，每个阶段都包含平均420秒/1fps的冗长视频，这得益于感知效率。仅使用0.8M个视频-文本样本进行训练，我们的模型在准确率上比采用固定划分策略的直接基线高出8.72，证明了其在性能上的有效性。在Video-MME上，Quicksviewer在使用基线所需每个帧的tokens的5%的情况下，实现了适度序列长度下的SOTA。通过这种范式，增加输入帧的数量揭示了模型能力的清晰幂律。经验验证表明，由立方体网络生成的片段有助于分析视频中的连续事件。

🔬 方法详解

问题定义：现有的大型多模态模型（LMMs）在处理视频时，通常采用均匀采样策略，即对视频的每一帧都进行同等程度的处理。然而，实际视频中不同片段的信息密度差异很大，均匀采样导致计算资源的浪费，尤其是在信息冗余的片段上。因此，如何根据视频内容动态调整采样策略，提高计算效率，是本文要解决的核心问题。

核心思路：Quicksviewer的核心思路是根据视频的时间密度，动态地将视频分割成不同大小的立方体（cubes），并对每个立方体进行统一的重采样。这种方法类似于视频编码中的可变码率技术，旨在减少时空冗余，提高计算效率。通过这种方式，模型可以更加关注信息丰富的片段，而减少对冗余片段的处理。

技术框架：Quicksviewer的整体框架包含以下几个主要模块：1) 视频立方体分割网络：使用Gumbel Softmax将视频分割成不同大小的立方体。2) 统一重采样模块：对每个立方体进行统一的重采样，生成固定数量的帧。3) 语言骨干网络：使用预训练的语言模型作为骨干网络，对重采样后的视频帧进行编码。4) 训练阶段：模型通过三个渐进的阶段进行训练，逐步引入更长的视频序列。

关键创新：Quicksviewer的关键创新在于其动态视频立方体分割策略。与传统的固定分割策略相比，Quicksviewer能够根据视频内容自适应地调整分割大小，从而更好地捕捉视频中的关键信息。此外，使用Gumbel Softmax进行分割，使得分割过程可微，从而可以进行端到端的训练。

关键设计：在视频立方体分割网络中，使用了Gumbel Softmax来生成分割点。Gumbel Softmax是一种连续松弛技术，可以使得离散的分割决策变得可微，从而可以使用梯度下降进行优化。此外，模型还采用了强化学习的方法来优化分割策略，以最大化模型的性能。损失函数包括视频文本匹配损失和分割策略的正则化项。

🖼️ 关键图片

📊 实验亮点

Quicksviewer在Video-MME数据集上取得了显著的性能提升，在适度序列长度下，仅使用基线模型5%的tokens就达到了SOTA。与采用固定划分策略的基线模型相比，Quicksviewer在准确率上提升了高达8.72。实验还表明，增加输入帧的数量可以显著提高Quicksviewer的性能，展现了模型能力的幂律缩放。

🎯 应用场景

Quicksviewer具有广泛的应用前景，例如视频监控、自动驾驶、视频摘要、视频检索等领域。通过动态压缩视频，Quicksviewer可以显著降低计算成本和存储需求，使得在资源受限的设备上进行视频理解成为可能。此外，Quicksviewer还可以用于分析视频中的连续事件，例如识别视频中的动作序列和事件发生的时间。

📄 摘要（原文）

Large Multimodal Models (LMMs) uniformly perceive video frames, creating computational inefficiency for videos with inherently varying temporal information density. This paper present \textbf{Quicksviewer}, an LMM with new perceiving paradigm that partitions a video of nonuniform density into varying cubes using Gumbel Softmax, followed by a unified resampling for each cube to achieve efficient video understanding. This simple and intuitive approach dynamically compress video online based on its temporal density, significantly reducing spatiotemporal redundancy (overall 45$\times$ compression rate), while enabling efficient training with large receptive field. We train the model from a language backbone through three progressive stages, each incorporating lengthy videos on average of 420s/1fps thanks to the perceiving efficiency. With only 0.8M total video-text samples for training, our model outperforms the direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in accuracy, demonstrating the effectiveness in performance. On Video-MME, Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\% of tokens per frame required by baselines. With this paradigm, scaling up the number of input frames reveals a clear power law of the model capabilities. It is also empirically verified that the segments generated by the cubing network can help for analyzing continuous events in videos.

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理