Linear Scaling Video VLMs for Long Video Understanding
作者: Cristobal Eyzaguirre, Jiajun Wu, Juan Carlos Niebles
分类: cs.CV
发布日期: 2026-05-29
💡 一句话要点
提出StateKV,实现长视频VLM线性扩展,提升长视频理解效率
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 长视频理解 视频视觉语言模型 线性扩展 循环状态 流式处理
📋 核心要点
- 现有长视频VLM依赖时空自注意力,计算复杂度随帧数平方增长,限制了其在长视频和流式场景的应用。
- StateKV通过固定容量的循环状态携带跨帧上下文,结合逐帧缓存解码,实现线性时间复杂度的视频预填充。
- 实验表明,StateKV在多个长视频数据集上优于滑动窗口等方法,且无需微调,降低了计算成本。
📝 摘要(中文)
视频视觉语言模型(VLM)越来越多地应用于长时程和流式场景,但大多数视频编码器仍然依赖于时空自注意力机制,导致计算和延迟随帧数呈二次方增长。现有的效率方法虽然提高了可扩展性,但相对于完全自注意力,通常会损失精度,例如通过激进的帧/token丢弃或粗略的注意力近似。我们引入了StateKV,这是一种推理时方法,通过在固定容量、基于重要性的循环状态中携带跨帧上下文,并结合用于解码的第二个完整逐帧缓存,使预训练的长视频VLM能够进行线性时间的视频预填充。在三个长视频基准测试和七个模型(跨越三个系列和多个尺度)中,StateKV保持接近完全自注意力的性能,并且始终优于主流的滑动窗口/基于最近性的流式近似方法,无需微调或架构更改。StateKV还降低了视频预填充的计算成本(以FLOPs衡量),从而可以通过运行更大的模型在固定的计算预算下实现更强的准确性。这些结果表明,在可扩展的长视频理解方面迈出了切实的一步。
🔬 方法详解
问题定义:现有视频VLM在处理长视频时,由于时空自注意力的计算复杂度是帧数的平方级别,导致计算成本过高,推理速度慢,难以应用于需要实时处理的流式视频场景。现有的加速方法,如帧/token丢弃或注意力近似,虽然降低了计算量,但往往会牺牲模型的精度。
核心思路:StateKV的核心思想是在推理时,利用一个固定容量的循环状态来存储和更新视频的关键信息,从而避免对所有帧进行自注意力计算。这个循环状态可以看作是对视频历史信息的一种压缩表示,它只保留对当前帧解码有用的信息。同时,为了保证解码的准确性,StateKV还维护了一个逐帧缓存,用于存储每一帧的特征。
技术框架:StateKV主要包含两个模块:循环状态更新模块和逐帧缓存模块。循环状态更新模块负责根据当前帧的特征和之前的循环状态,更新循环状态。逐帧缓存模块负责存储每一帧的特征。在解码时,模型同时利用循环状态和逐帧缓存的信息进行预测。整个流程可以概括为:输入视频帧 -> 提取帧特征 -> 循环状态更新 -> 逐帧缓存 -> 解码。
关键创新:StateKV的关键创新在于使用固定容量的循环状态来携带跨帧上下文信息,从而将视频预填充的计算复杂度降低到线性级别。与现有的滑动窗口方法相比,StateKV可以更好地利用视频的全局信息,从而提高模型的精度。与现有的注意力近似方法相比,StateKV不需要对注意力机制进行任何修改,因此可以更好地保留模型的原始性能。
关键设计:StateKV的关键设计包括循环状态的容量大小、循环状态的更新方式以及如何利用循环状态和逐帧缓存进行解码。循环状态的容量大小决定了模型可以存储多少历史信息。循环状态的更新方式决定了模型如何选择和更新历史信息。解码方式决定了模型如何利用循环状态和逐帧缓存进行预测。论文中并没有给出具体的参数设置,这部分可能需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
StateKV在三个长视频基准测试中,性能接近完全自注意力模型,且始终优于主流的滑动窗口方法。在相同的计算预算下,StateKV可以通过运行更大的模型来获得更高的精度。例如,在某个数据集上,使用StateKV的大模型比使用滑动窗口的小模型获得了显著的性能提升。
🎯 应用场景
StateKV可应用于长视频理解、视频摘要、视频问答、视频编辑等领域。尤其在需要实时处理的流媒体服务、监控系统、机器人视觉等场景下,具有重要的应用价值。该方法降低了长视频处理的计算成本,使得更大规模、更高精度的视频分析成为可能,有望推动视频智能化的发展。
📄 摘要(原文)
Video vision-language models (VLMs) are increasingly used in long-horizon and streaming settings, yet most video encoders still rely on spatiotemporal self-attention, causing compute and latency to grow quadratically with the number of frames. Existing efficiency methods improve scalability but often lose accuracy relative to full self-attention, for example through aggressive frame/token dropping or coarse attention approximations. We introduce StateKV, an inference-time method that adapts pretrained long-video VLMs to linear-time video prefill by carrying cross-frame context in a fixed-capacity, importance-based recurrent state, paired with a second full per-frame cache used for decoding. Across three long-video benchmarks and seven models spanning three families and multiple scales, StateKV remains close to full self-attention and consistently outperforms dominant sliding-window / recency-based streaming approximations, without fine-tuning or architectural changes. StateKV also reduces video-prefill cost measured FLOPs, enabling stronger accuracy at a fixed compute budget by running larger models. These results suggest a practical step toward scalable long-video understanding.