High-Resolution Spatiotemporal Modeling with Global-Local State Space Models for Video-Based Human Pose Estimation

📄 arXiv: 2510.11017v1 📥 PDF

作者: Runyang Feng, Hyung Jin Chang, Tze Ho Elden Tse, Boeun Kim, Yi Chang, Yixing Gao

分类: cs.CV

发布日期: 2025-10-13

备注: This paper is accepted to ICCV 2025


💡 一句话要点

提出基于全局-局部状态空间模型的高分辨率时空建模方法,用于视频人体姿态估计。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频人体姿态估计 状态空间模型 时空建模 高分辨率 全局-局部建模

📋 核心要点

  1. 现有VHPE方法难以平衡全局动态上下文和局部运动细节的建模,容易偏向一方,导致性能次优。
  2. 提出全局时空Mamba和局部细化Mamba,分别学习全局和局部高分辨率时空表示,提升建模能力。
  3. 实验结果表明,该模型在四个基准数据集上优于现有方法,并在计算效率上有所提升。

📝 摘要(中文)

本文提出了一种新颖的框架,用于视频人体姿态估计(VHPE),该框架扩展了状态空间模型(Mamba),分别学习全局和局部高分辨率时空表示。具体而言,首先提出了全局时空Mamba,执行6D选择性时空扫描以及空间和时间调制扫描合并,以有效地从高分辨率序列中提取全局表示。其次,引入了基于窗口时空扫描的局部细化Mamba,以增强局部关键点运动的高频细节。在四个基准数据集上的大量实验表明,所提出的模型优于最先进的VHPE方法,同时实现了更好的计算权衡。

🔬 方法详解

问题定义:视频人体姿态估计(VHPE)需要建模高分辨率的时空表示,包括全局动态上下文(如整体人体运动趋势)和局部运动细节(如关键点的高频变化)。现有方法通常使用单一类型的建模结构(卷积或注意力机制)统一进行时空学习,难以平衡全局和局部动态建模,容易偏向一方。此外,现有VHPE模型在捕获全局依赖关系时面临二次复杂度问题,限制了其在高分辨率序列上的应用。

核心思路:本文的核心思路是将全局和局部时空建模解耦,分别使用不同的状态空间模型(SSM)进行处理。全局时空Mamba负责捕获整体运动趋势,局部细化Mamba负责增强关键点运动的细节。通过这种方式,可以更好地平衡全局和局部建模,并降低计算复杂度。

技术框架:整体框架包含两个主要模块:全局时空Mamba和局部细化Mamba。首先,输入视频序列经过预处理和特征提取,得到高分辨率的时空特征表示。然后,全局时空Mamba对这些特征进行6D选择性时空扫描和空间-时间调制扫描合并,提取全局时空表示。接着,局部细化Mamba在局部窗口内进行时空扫描,增强关键点运动的高频细节。最后,将全局和局部表示融合,预测人体姿态。

关键创新:最重要的技术创新点在于将Mamba状态空间模型扩展到高分辨率时空建模,并分别用于全局和局部特征的学习。与现有方法相比,该方法能够更有效地捕获长程依赖关系,并降低计算复杂度。此外,提出的6D选择性时空扫描和空间-时间调制扫描合并策略,能够更好地提取全局时空信息。

关键设计:全局时空Mamba采用6D选择性时空扫描,允许模型在六个维度(时间、空间x、空间y、通道、batch、序列长度)上进行选择性扫描,从而更好地捕获全局时空依赖关系。空间-时间调制扫描合并通过调制空间和时间维度上的扫描顺序,进一步提升了全局表示的质量。局部细化Mamba采用窗口化的时空扫描,限制了计算范围,并专注于增强局部关键点运动的细节。损失函数采用常用的均方误差(MSE)损失,优化预测姿态与真实姿态之间的差异。

📊 实验亮点

实验结果表明,该模型在四个基准数据集(包括COCO、MPII和PoseTrack)上均取得了优于现有方法的性能。例如,在PoseTrack 2018数据集上,该模型在多个指标上取得了显著提升,平均精度(mAP)提高了超过2个百分点,同时计算复杂度更低。

🎯 应用场景

该研究成果可应用于各种需要高精度人体姿态估计的场景,例如视频监控、人机交互、虚拟现实、运动分析和康复训练等。通过更准确地捕捉人体运动的全局趋势和局部细节,可以提升这些应用的用户体验和性能,并为未来的研究提供新的思路。

📄 摘要(原文)

Modeling high-resolution spatiotemporal representations, including both global dynamic contexts (e.g., holistic human motion tendencies) and local motion details (e.g., high-frequency changes of keypoints), is essential for video-based human pose estimation (VHPE). Current state-of-the-art methods typically unify spatiotemporal learning within a single type of modeling structure (convolution or attention-based blocks), which inherently have difficulties in balancing global and local dynamic modeling and may bias the network to one of them, leading to suboptimal performance. Moreover, existing VHPE models suffer from quadratic complexity when capturing global dependencies, limiting their applicability especially for high-resolution sequences. Recently, the state space models (known as Mamba) have demonstrated significant potential in modeling long-range contexts with linear complexity; however, they are restricted to 1D sequential data. In this paper, we present a novel framework that extends Mamba from two aspects to separately learn global and local high-resolution spatiotemporal representations for VHPE. Specifically, we first propose a Global Spatiotemporal Mamba, which performs 6D selective space-time scan and spatial- and temporal-modulated scan merging to efficiently extract global representations from high-resolution sequences. We further introduce a windowed space-time scan-based Local Refinement Mamba to enhance the high-frequency details of localized keypoint motions. Extensive experiments on four benchmark datasets demonstrate that the proposed model outperforms state-of-the-art VHPE approaches while achieving better computational trade-offs.