Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network

📄 arXiv: 2408.02922v3 📥 PDF

作者: Xinyi Zhang, Qiqi Bao, Qinpeng Cui, Wenming Yang, Qingmin Liao

分类: cs.CV

发布日期: 2024-08-06 (更新: 2025-02-26)

备注: This work has been accepted by AAAI 2025


💡 一句话要点

提出Hybrid Mamba-GCN网络以解决3D人体姿态估计中的效率与准确性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 3D人体姿态估计 图卷积网络 长程建模 局部依赖 实时推理 混合架构 状态空间模型

📋 核心要点

  1. 现有的Transformer基础的3D人体姿态估计方法在准确性与计算效率之间存在明显的权衡。
  2. 本文提出的Hybrid Mamba-GCN架构通过结合Mamba和GCN,增强了局部关节间的关系建模能力。
  3. Pose Magic在实验中实现了新的SOTA结果,显著降低了估计误差并提高了计算效率。

📝 摘要(中文)

当前最先进的3D人体姿态估计方法主要基于Transformer,但这些方法在准确性与计算效率之间存在权衡。为了解决这一问题,本文利用状态空间模型的最新进展,采用Mamba进行高质量的长程建模。然而,Mamba在精确捕捉关节间的局部依赖性方面仍面临挑战。为此,本文提出了一种新的无注意力混合时空架构Hybrid Mamba-GCN(Pose Magic),通过图卷积网络(GCN)增强局部关系,从而生成新的表示以补充Mamba的输出。Pose Magic通过自适应融合Mamba和GCN的表示,展现出在学习3D结构方面的优越能力。实验结果表明,Pose Magic在保持实时推理的同时,达到了新的SOTA结果(降低0.9mm),并节省了74.1%的FLOPs。

🔬 方法详解

问题定义:本文旨在解决现有Transformer基础的3D人体姿态估计方法在准确性与计算效率之间的权衡问题。现有方法在长程建模方面表现良好,但在捕捉局部关节依赖性时存在不足。

核心思路:本文提出的Hybrid Mamba-GCN架构通过结合Mamba的长程建模能力与GCN的局部增强能力,旨在提高3D姿态估计的准确性与效率。此设计使得模型能够更好地捕捉关节间的关系。

技术框架:Hybrid Mamba-GCN架构包括两个主要模块:Mamba用于长程建模,GCN用于捕捉局部关节关系。通过自适应融合这两个模块的输出,生成最终的姿态估计结果。

关键创新:本文的主要创新在于提出了一种无注意力的混合时空架构,能够有效结合长程与局部信息,克服了传统Transformer在局部依赖建模上的不足。

关键设计:在模型设计中,采用了特定的参数设置以优化计算效率,同时设计了损失函数以平衡长程与局部信息的融合,确保模型在实时推理时仍能保持高准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Pose Magic在实验中实现了新的SOTA结果,姿态估计误差降低了0.9mm,同时计算效率提升显著,节省了74.1%的FLOPs。这些结果表明该方法在保持高准确性的同时,具备了良好的实时推理能力。

🎯 应用场景

该研究在实时3D人体姿态估计领域具有广泛的应用潜力,尤其适用于虚拟现实、增强现实、运动分析和人机交互等场景。通过提高姿态估计的准确性与效率,Pose Magic能够为这些领域提供更为流畅和自然的用户体验,推动相关技术的发展与应用。

📄 摘要(原文)

Current state-of-the-art (SOTA) methods in 3D Human Pose Estimation (HPE) are primarily based on Transformers. However, existing Transformer-based 3D HPE backbones often encounter a trade-off between accuracy and computational efficiency. To resolve the above dilemma, in this work, we leverage recent advances in state space models and utilize Mamba for high-quality and efficient long-range modeling. Nonetheless, Mamba still faces challenges in precisely exploiting local dependencies between joints. To address these issues, we propose a new attention-free hybrid spatiotemporal architecture named Hybrid Mamba-GCN (Pose Magic). This architecture introduces local enhancement with GCN by capturing relationships between neighboring joints, thus producing new representations to complement Mamba's outputs. By adaptively fusing representations from Mamba and GCN, Pose Magic demonstrates superior capability in learning the underlying 3D structure. To meet the requirements of real-time inference, we also provide a fully causal version. Extensive experiments show that Pose Magic achieves new SOTA results ($\downarrow 0.9 mm$) while saving $74.1\%$ FLOPs. In addition, Pose Magic exhibits optimal motion consistency and the ability to generalize to unseen sequence lengths.