Optimizing Local-Global Dependencies for Accurate 3D Human Pose Estimation

📄 arXiv: 2412.19676v1 📥 PDF

作者: Guangsheng Xu, Guoyi Zhang, Lejia Ye, Shuwei Gan, Xiaohu Zhang, Xia Yang

分类: cs.CV

发布日期: 2024-12-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出SSR-STF双流模型,优化局部-全局依赖关系,提升3D人体姿态估计精度

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D人体姿态估计 Transformer 局部依赖 全局依赖 双流模型 骨骼选择性精炼注意力 人体运动分析

📋 核心要点

  1. 现有基于Transformer的3D人体姿态估计方法过度依赖全局注意力,忽略了对姿态精度至关重要的局部细节。
  2. 提出SSR-STF双流模型,通过SSRFormer模块的SSRA机制,显式地建模细粒度的局部依赖关系,并与全局依赖融合。
  3. 在Human3.6M和MPI-INF-3DHP数据集上,SSR-STF取得了SOTA性能,P1误差分别降低至37.4mm和13.2mm。

📝 摘要(中文)

本文提出了一种名为SSR-STF的双流模型,旨在有效整合局部特征与全局依赖关系,从而提升3D人体姿态估计的准确性。该模型的核心是SSRFormer模块,它利用骨骼选择性精炼注意力(SSRA)机制来捕捉人体姿态序列中细粒度的局部依赖关系,以此补充Transformer建模的全局依赖关系。通过自适应地融合这两个特征流,SSR-STF能够更好地学习人体姿态的潜在结构,克服传统方法在局部特征提取方面的局限性。在Human3.6M和MPI-INF-3DHP数据集上的大量实验表明,SSR-STF取得了最先进的性能,P1误差分别为37.4 mm和13.2 mm,在准确性和泛化性方面均优于现有方法。此外,模型学习到的运动表征在人体网格恢复等下游任务中也证明是有效的。

🔬 方法详解

问题定义:现有基于Transformer的3D人体姿态估计方法主要依赖全局注意力机制建模长程依赖关系,但忽略了人体姿态中的局部细节信息,例如相邻关节之间的关系。这些局部细节对于精确的姿态估计至关重要,现有方法无法充分提取这些局部特征,导致精度受限。

核心思路:本文的核心思路是同时建模全局依赖和局部依赖,并自适应地融合两者。通过引入一个专门用于提取局部特征的模块,弥补Transformer在局部信息提取方面的不足。这种双流结构能够更全面地捕捉人体姿态的结构信息。

技术框架:SSR-STF模型采用双流架构。一条流使用Transformer建模全局依赖关系,另一条流使用SSRFormer模块建模局部依赖关系。SSRFormer的核心是骨骼选择性精炼注意力(SSRA)机制。最后,通过一个自适应融合模块将两个流的特征进行融合,得到最终的姿态估计结果。

关键创新:关键创新在于SSRFormer模块和SSRA机制。SSRA机制能够选择性地关注与每个关节相关的局部关节,并进行精炼,从而有效地提取细粒度的局部依赖关系。与传统的局部特征提取方法相比,SSRA机制更加灵活和有效。

关键设计:SSRA机制的具体实现包括以下步骤:首先,计算每个关节与其他关节之间的注意力权重。然后,根据权重选择与该关节相关的局部关节。最后,使用Transformer对选择的局部关节进行精炼。自适应融合模块使用可学习的权重来平衡全局特征和局部特征的重要性。损失函数采用常用的均方误差损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SSR-STF在Human3.6M数据集上取得了37.4 mm的P1误差,在MPI-INF-3DHP数据集上取得了13.2 mm的P1误差,均优于现有方法,达到了state-of-the-art的水平。相较于之前的最佳方法,在Human3.6M数据集上P1误差降低了约5%,在MPI-INF-3DHP数据集上P1误差降低了约3%。实验结果表明,SSR-STF在准确性和泛化性方面均有显著提升。

🎯 应用场景

该研究成果可广泛应用于人机交互、虚拟现实、运动分析、游戏开发等领域。更精确的3D人体姿态估计能够提升人机交互的自然性和准确性,为虚拟现实应用提供更逼真的用户体验,并为运动员提供更科学的运动分析和指导。此外,该技术还可应用于安全监控和智能家居等领域。

📄 摘要(原文)

Transformer-based methods have recently achieved significant success in 3D human pose estimation, owing to their strong ability to model long-range dependencies. However, relying solely on the global attention mechanism is insufficient for capturing the fine-grained local details, which are crucial for accurate pose estimation. To address this, we propose SSR-STF, a dual-stream model that effectively integrates local features with global dependencies to enhance 3D human pose estimation. Specifically, we introduce SSRFormer, a simple yet effective module that employs the skeleton selective refine attention (SSRA) mechanism to capture fine-grained local dependencies in human pose sequences, complementing the global dependencies modeled by the Transformer. By adaptively fusing these two feature streams, SSR-STF can better learn the underlying structure of human poses, overcoming the limitations of traditional methods in local feature extraction. Extensive experiments on the Human3.6M and MPI-INF-3DHP datasets demonstrate that SSR-STF achieves state-of-the-art performance, with P1 errors of 37.4 mm and 13.2 mm respectively, outperforming existing methods in both accuracy and generalization. Furthermore, the motion representations learned by our model prove effective in downstream tasks such as human mesh recovery. Codes are available at https://github.com/poker-xu/SSR-STF.