AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding

📄 arXiv: 2604.08077v1 📥 PDF

作者: Handong Li, Zikang Liu, Longteng Guo, Tongtian Yue, Yepeng Tang, Xinxin Zhu, Chuanyang Zheng, Ziming Wang, Zhibin Wang, Jun Song, Cheng Yu, Bo Zheng, Jing Liu

分类: cs.CV

发布日期: 2026-04-09

备注: 8 pages, CVPR2026 Accept (Highlight)


💡 一句话要点

AdaSpark:面向高效长视频理解的自适应稀疏框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 自适应稀疏性 视频大语言模型 计算效率 注意力机制

📋 核心要点

  1. 现有长视频理解方法在效率和性能之间存在trade-off,要么损失细粒度信息,要么限制长程建模能力。
  2. AdaSpark通过自适应地选择重要的时空立方体和token进行处理,从而在降低计算量的同时保持性能。
  3. 实验表明,AdaSpark在长视频理解任务中,能够在显著降低计算负载的同时,保持与密集模型相当的性能。

📝 摘要(中文)

本文提出AdaSpark,一个自适应稀疏框架,旨在解决视频大语言模型(Video-LLMs)处理长视频时计算量过大的问题。现有方法通常通过不可逆的信息丢弃来牺牲细粒度感知,或通过刚性的、预定义的稀疏模式来抑制长程时序建模。AdaSpark首先将视频输入分割成3D时空立方体,然后采用两个协同设计的、上下文感知的组件:(1)自适应立方体选择注意力(AdaS-Attn),它为每个查询token自适应地选择一个相关的视频立方体子集进行注意力计算;(2)自适应token选择前馈网络(AdaS-FFN),它选择性地处理每个立方体中最显著的token。一种基于熵的(Top-p)选择机制自适应地根据输入复杂度分配计算资源。实验表明,AdaSpark在保持与密集模型相当的性能并保留细粒度、长程依赖性的同时,显著降低了计算负载,最高可达57% FLOPs,这在具有挑战性的、小时级视频基准上得到了验证。

🔬 方法详解

问题定义:现有Video-LLM处理长视频时计算量巨大,难以部署。现有的稀疏化方法要么通过不可逆的信息丢弃牺牲了细粒度感知能力,要么采用预定义的稀疏模式限制了长程时序建模能力。因此,如何在保证性能的前提下,降低长视频理解的计算复杂度是一个关键问题。

核心思路:AdaSpark的核心思路是自适应地选择对当前任务最相关的时空区域和token进行处理,从而避免对所有输入进行密集计算。通过上下文感知的选择机制,模型能够根据输入视频的内容动态地调整计算资源的分配,只关注重要的信息。

技术框架:AdaSpark框架首先将输入视频分割成3D时空立方体。然后,通过堆叠多个AdaSpark层来处理这些立方体。每个AdaSpark层包含两个主要模块:AdaS-Attn(自适应立方体选择注意力)和AdaS-FFN(自适应token选择前馈网络)。AdaS-Attn负责选择与当前查询token相关的立方体,而AdaS-FFN负责在选定的立方体中选择重要的token进行处理。最后,通过一个输出层将处理后的特征映射到目标任务。

关键创新:AdaSpark的关键创新在于其自适应稀疏性。与传统的静态稀疏化方法不同,AdaSpark能够根据输入视频的内容动态地调整稀疏模式。这种自适应性使得模型能够在降低计算量的同时,保持对重要信息的关注。此外,AdaSpark的立方体选择和token选择机制能够有效地捕捉长程时序依赖关系。

关键设计:AdaSpark使用基于熵的Top-p选择机制来实现自适应稀疏性。具体来说,对于AdaS-Attn,模型首先计算每个立方体与查询token之间的相关性得分,然后使用softmax函数将其转换为概率分布。接着,模型根据概率分布的熵来确定需要保留的立方体的数量。对于AdaS-FFN,模型使用类似的方法来选择重要的token。Top-p参数控制了稀疏的程度,可以根据具体的任务和计算资源进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AdaSpark在多个长视频理解基准上取得了显著的性能提升。例如,在Hour-scale video数据集上,AdaSpark能够在降低高达57% FLOPs的情况下,保持与密集模型相当的性能。此外,AdaSpark还优于其他稀疏化方法,证明了其自适应稀疏性的有效性。

🎯 应用场景

AdaSpark具有广泛的应用前景,包括视频监控、自动驾驶、视频摘要、视频检索等领域。通过降低长视频理解的计算复杂度,AdaSpark使得这些应用能够在资源受限的设备上运行,并能够处理更大规模的视频数据。此外,AdaSpark还可以应用于其他需要处理长序列数据的任务,例如自然语言处理和语音识别。

📄 摘要(原文)

Processing long-form videos with Video Large Language Models (Video-LLMs) is computationally prohibitive. Current efficiency methods often compromise fine-grained perception through irreversible information disposal or inhibit long-range temporal modeling via rigid, predefined sparse patterns. This paper introduces AdaSpark, an adaptive sparsity framework designed to address these limitations. AdaSpark first partitions video inputs into 3D spatio-temporal cubes. It then employs two co-designed, context-aware components: (1) Adaptive Cube-Selective Attention (AdaS-Attn), which adaptively selects a subset of relevant video cubes to attend for each query token, and (2) Adaptive Token-Selective FFN (AdaS-FFN), which selectively processes only the most salient tokens within each cube. An entropy-based (Top-p) selection mechanism adaptively allocates computational resources based on input complexity. Experiments demonstrate that AdaSpark significantly reduces computational load by up to 57% FLOPs while maintaining comparable performance to dense models and preserving fine-grained, long-range dependencies, as validated on challenging hour-scale video benchmarks.