PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model
作者: Yunlong Huang, Junshuo Liu, Ke Xian, Robert Caiming Qiu
分类: cs.CV
发布日期: 2024-08-07 (更新: 2024-12-15)
备注: Accpeted by the 39th Annual AAAI Conference on Artificial Intelligence (AAAI 2025)
💡 一句话要点
PoseMamba:利用双向全局-局部时空状态空间模型进行单目3D人体姿态估计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 3D人体姿态估计 单目视频 状态空间模型 时空建模 Mamba 双向建模 全局-局部建模
📋 核心要点
- 现有基于Transformer的3D人体姿态估计方法计算复杂度高,且时空关系建模能力不足,限制了性能。
- PoseMamba利用状态空间模型,提出双向全局-局部时空SSM块,有效建模时空关系,降低计算复杂度。
- 实验表明,PoseMamba在Human3.6M和MPI-INF-3DHP数据集上取得了SOTA性能,同时模型更小,计算成本更低。
📝 摘要(中文)
本文提出PoseMamba,一种基于状态空间模型(SSM)的全新单目视频3D人体姿态估计方法,具有线性复杂度。现有基于Transformer的方法主要使用自注意力机制进行时空建模,导致二次复杂度、时空关系单向建模以及时空相关性学习不足。PoseMamba提出了一种双向全局-局部时空SSM块,全面建模单帧内的人体关节关系以及跨帧的时间相关性。在该模块中,引入了一种重排序策略,以增强SSM的局部建模能力,提供更符合几何逻辑的扫描顺序,并将其与全局SSM集成,形成全局-局部空间扫描。在Human3.6M和MPI-INF-3DHP两个基准数据集上的大量实验表明,PoseMamba在保持较小模型尺寸和降低计算成本的同时,实现了最先进的性能。
🔬 方法详解
问题定义:现有基于Transformer的3D人体姿态估计方法,依赖自注意力机制进行时空建模,计算复杂度呈二次方增长,难以处理长序列视频。此外,自注意力机制对时空关系的建模是单向的,无法充分捕捉人体姿态的时空依赖性。
核心思路:PoseMamba的核心思路是利用状态空间模型(SSM)替代Transformer中的自注意力机制,实现线性复杂度的时空建模。通过设计双向全局-局部时空SSM块,同时捕捉全局和局部的时空关系,提升模型对人体姿态动态的理解能力。
技术框架:PoseMamba的整体框架包括特征提取模块和基于SSM的时空建模模块。首先,使用卷积神经网络提取视频帧的特征。然后,将提取的特征输入到双向全局-局部时空SSM块中进行时空建模。最后,通过一个回归层预测3D人体姿态。
关键创新:PoseMamba的关键创新在于提出了双向全局-局部时空SSM块。该模块通过重排序策略,增强了SSM的局部建模能力,并将其与全局SSM集成,形成全局-局部空间扫描。这种设计使得模型能够同时捕捉全局的时空依赖性和局部的关节关系,从而提升了3D人体姿态估计的准确性。与现有方法的本质区别在于,PoseMamba使用SSM替代了Transformer中的自注意力机制,实现了线性复杂度的时空建模。
关键设计:双向全局-局部时空SSM块包含两个SSM层,分别进行全局和局部的时空建模。重排序策略对输入特征进行重新排列,使得相邻的关节在空间上更加接近,从而增强了局部建模能力。损失函数采用Mean Per Joint Position Error (MPJPE),用于衡量预测的3D人体姿态与真实姿态之间的误差。
🖼️ 关键图片
📊 实验亮点
PoseMamba在Human3.6M和MPI-INF-3DHP数据集上取得了state-of-the-art的性能。例如,在Human3.6M数据集上,PoseMamba在MPJPE指标上优于现有方法,并且模型尺寸更小,计算成本更低。这些实验结果表明,PoseMamba是一种高效且准确的单目3D人体姿态估计方法。
🎯 应用场景
PoseMamba在单目3D人体姿态估计领域具有广泛的应用前景,例如人机交互、虚拟现实、运动分析、智能监控等。该方法能够准确地从单目视频中估计人体姿态,为这些应用提供可靠的输入数据,从而提升用户体验和系统性能。未来,PoseMamba可以进一步扩展到其他人体姿态相关的任务,例如动作识别、人体跟踪等。
📄 摘要(原文)
Transformers have significantly advanced the field of 3D human pose estimation (HPE). However, existing transformer-based methods primarily use self-attention mechanisms for spatio-temporal modeling, leading to a quadratic complexity, unidirectional modeling of spatio-temporal relationships, and insufficient learning of spatial-temporal correlations. Recently, the Mamba architecture, utilizing the state space model (SSM), has exhibited superior long-range modeling capabilities in a variety of vision tasks with linear complexity. In this paper, we propose PoseMamba, a novel purely SSM-based approach with linear complexity for 3D human pose estimation in monocular video. Specifically, we propose a bidirectional global-local spatio-temporal SSM block that comprehensively models human joint relations within individual frames as well as temporal correlations across frames. Within this bidirectional global-local spatio-temporal SSM block, we introduce a reordering strategy to enhance the local modeling capability of the SSM. This strategy provides a more logical geometric scanning order and integrates it with the global SSM, resulting in a combined global-local spatial scan. We have quantitatively and qualitatively evaluated our approach using two benchmark datasets: Human3.6M and MPI-INF-3DHP. Extensive experiments demonstrate that PoseMamba achieves state-of-the-art performance on both datasets while maintaining a smaller model size and reducing computational costs. The code and models will be released.