$\text{PKS}^4$:Parallel Kinematic Selective State Space Scanners for Efficient Video Understanding

📄 arXiv: 2604.26461v1 📥 PDF

作者: Lingjie Zeng, Hailun Zhang, Xiwen Wang, Qijun Zhao

分类: cs.CV

发布日期: 2026-04-29


💡 一句话要点

提出PKS$^4$,通过并行运动学选择性状态空间扫描器实现高效视频理解

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频理解 状态空间模型 运动学先验 时间建模 动作识别 长视频处理 高效计算

📋 核心要点

  1. 传统视频模型在处理长视频时,由于时空注意力机制的二次方计算复杂度,面临巨大的计算挑战。
  2. PKS$^4$通过运动学先验编码器提取运动信息,驱动线性复杂度的状态空间模型,自适应地进行时间扫描,避免了全局注意力。
  3. 实验表明,PKS$^4$在动作识别任务上取得了SOTA性能,并且训练计算量显著降低,仅需20个epoch即可收敛。

📝 摘要(中文)

时间建模是视频理解中的一个根本挑战,尤其是在序列长度扩展时。依赖于密集时空注意力的传统视频模型在长视频中面临二次计算成本。为了规避这些成本,最近的方法通过参数高效微调(PEFT)方法(如适配器)来调整图像模型以适应视频。然而,深度插入这些模块会在反向传播期间产生过高的激活内存开销。虽然最近的高效状态空间模型(SSM)引入了线性复杂度,但它们破坏了2D空间关系,并依赖于广泛的掩码预训练来恢复空间感知。为了克服这些限制,我们提出了并行运动学选择性状态空间扫描器(PKS$^4$)。我们保留标准的2D视觉骨干网络用于空间语义,并插入一个具有线性复杂度时间扫描的即插即用PKS$^4$模块,避免了时间注意力和多层适配器。我们首先通过运动学先验编码器提取运动学先验,该编码器通过帧间相关性和差异来捕获局部位移和运动边界。这些先验驱动线性复杂度的SSM来跟踪底层运动学状态,自适应地调节每个时间步的更新速度和读写策略。我们不是进行全局扫描,而是沿着每个空间位置的时间维度部署并行扫描器,从而在降低开销的同时保留空间结构。在空间密集型和时间密集型动作识别基准上的实验表明,PKS$^4$实现了最先进的性能。值得注意的是,我们的方法仅在20个epoch内收敛,与纯视频SSM相比,训练计算量降低了约10倍,为高效视频理解建立了一种新的范例。

🔬 方法详解

问题定义:现有视频理解模型,特别是基于Transformer的模型,在处理长视频时面临计算量过大的问题。传统的时空注意力机制复杂度为O(N^2),其中N是视频帧数。此外,直接将图像模型适配到视频任务,例如通过插入Adapter模块,会引入大量的激活内存开销,限制了模型深度和训练效率。

核心思路:PKS$^4$的核心思路是利用运动学先验信息来指导状态空间模型(SSM)进行高效的时间建模。通过提取帧间的运动信息(如位移和运动边界),可以使SSM更加关注视频中的关键动态变化,从而避免对所有帧进行同等程度的处理。此外,采用并行扫描的方式,在每个空间位置上独立进行时间建模,可以有效保留空间结构信息。

技术框架:PKS$^4$的整体框架包括以下几个主要模块:1) 2D视觉骨干网络:用于提取每一帧的空间特征。2) 运动学先验编码器:用于提取帧间的运动信息,生成运动学先验。3) 并行状态空间扫描器:利用运动学先验指导SSM进行时间建模,每个空间位置对应一个独立的扫描器。整个流程可以概括为:输入视频 -> 2D骨干网络提取空间特征 -> 运动学先验编码器提取运动先验 -> 并行SSM扫描器进行时间建模 -> 输出视频特征。

关键创新:PKS$^4$的关键创新在于将运动学先验信息与状态空间模型相结合,实现了高效且有效的视频时间建模。与传统的全局注意力机制相比,PKS$^4$的计算复杂度为线性,可以处理更长的视频序列。与直接使用SSM进行视频建模的方法相比,PKS$^4$通过运动学先验增强了模型对视频动态信息的感知能力,避免了对大量数据的预训练。

关键设计:运动学先验编码器通过计算帧间差异和相关性来提取运动信息。并行SSM扫描器在每个空间位置独立进行时间建模,避免了空间信息的丢失。损失函数方面,可以使用标准的交叉熵损失函数进行动作分类任务的训练。具体的网络结构和参数设置需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PKS$^4$在多个动作识别基准测试中取得了最先进的性能。值得注意的是,该方法仅需20个epoch即可收敛,训练计算量比纯视频SSM降低了约10倍。这表明PKS$^4$在效率和性能之间取得了良好的平衡,为高效视频理解提供了一种新的解决方案。

🎯 应用场景

PKS$^4$具有广泛的应用前景,包括视频监控、自动驾驶、视频编辑、以及各种需要理解视频内容的智能应用。其高效的时间建模能力使得它能够处理更长的视频序列,从而更好地理解视频中的事件和行为。该方法可以应用于实时视频分析,例如在自动驾驶中识别交通参与者的行为,或者在视频监控中检测异常事件。

📄 摘要(原文)

Temporal modeling remains a fundamental challenge in video understanding, particularly as sequence lengths scale. Traditional video models relying on dense spatiotemporal attention suffer from quadratic computational costs for long videos. To circumvent these costs, recent approaches adapt image models for videos via Parameter-Efficient Fine-Tuning (PEFT) methods such as adapters. However, deeply inserting these modules incurs prohibitive activation memory overhead during back-propagation. While recent efficient State Space Models (SSMs) introduce linear complexity, they disrupt 2D spatial relationships and rely on extensive masked pre-training to recover spatial awareness. To overcome these limitations, we propose Parallel Kinematic Selective State Space Scanners (PKS$^4$). We retain a standard 2D vision backbone for spatial semantics and insert a single plug-and-play PKS$^4$ module with linear-complexity temporal scanning, avoiding temporal attention and multi-layer adapters. We first extract kinematic priors via a Kinematic Prior Encoder, which captures local displacements and motion boundaries through inter-frame correlations and differences. These priors drive linear-complexity SSMs to track underlying kinematic states, adaptively modulating update speeds and read-write strategies at each time step. Instead of global scanning, we deploy parallel scanners along the temporal dimension for each spatial location, preserving spatial structures while reducing overhead. Experiments on spatial-heavy and temporal-heavy action recognition benchmarks show that PKS$^4$ achieves state-of-the-art performance. Remarkably, our method converges in merely $20$ epochs, achieving approximately $10\times$ lower training compute than pure video SSMs, establishing a new paradigm for efficient video understanding.