Dual-stream Spatio-Temporal GCN-Transformer Network for 3D Human Pose Estimation

📄 arXiv: 2604.17688v1 📥 PDF

作者: Jiawen Duan, Jian Xiang, Zhiqiang Li, Linlin Xue, Wan Xiang

分类: cs.CV

发布日期: 2026-04-20

备注: Published in Displays, Vol. 93, 2026, Article 103429. DOI: https://doi.org/10.1016/j.displa.2026.103429 Free access: https://authors.elsevier.com/a/1mnPTWHUHYdGQ


💡 一句话要点

提出双流时空GCN-Transformer网络MixTGFormer,提升3D人体姿态估计精度。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D人体姿态估计 图卷积网络 Transformer 时空建模 双流网络

📋 核心要点

  1. 现有基于Transformer的3D人体姿态估计方法主要关注全局时空关系建模,忽略了局部骨骼关系以及不同通道间的信息交互。
  2. 本文提出MixTGFormer,通过双流结构并行建模时空关系,并设计Mixformer模块融合GCN和Transformer,增强局部和全局信息利用。
  3. 实验结果表明,MixTGFormer在Human3.6M和MPI-INF-3DHP数据集上取得了state-of-the-art的性能,P1误差分别降低至37.6mm和15.7mm。

📝 摘要(中文)

本文提出了一种用于3D人体姿态估计的新方法,即双流时空GCN-Transformer网络(MixTGFormer)。该方法通过两个并行通道同时建模人体骨骼的空间和时间关系,从而有效地融合全局和局部特征。MixTGFormer的核心是堆叠的Mixformer模块,该模块包含Mixformer Block和Squeeze-and-Excitation Layer (SE Layer)。Mixformer Block首先通过两个具有不同模式的并行Mixformer Block提取和融合人体骨骼的各种信息,然后通过SE Layer进一步补充融合后的信息。Mixformer Block将图卷积网络(GCN)集成到Transformer中,增强了局部和全局信息的利用。此外,本文还实现了其时间和空间形式,以提取空间和时间关系。在Human3.6M和MPI-INF-3DHP两个基准数据集上的大量实验表明,与现有方法相比,MixTGFormer取得了state-of-the-art的结果,在这两个数据集上的P1误差分别为37.6mm和15.7mm。

🔬 方法详解

问题定义:本文旨在解决3D人体姿态估计问题。现有方法,特别是基于Transformer的方法,虽然在捕捉全局时序依赖方面表现出色,但忽略了人体骨骼的局部结构信息以及不同特征通道之间的信息交互,导致姿态估计精度受限。

核心思路:本文的核心思路是利用双流结构分别建模人体骨骼的空间和时间关系,并融合GCN和Transformer的优势,同时关注局部骨骼结构和全局时序依赖。通过这种方式,模型能够更全面地理解人体姿态,从而提高估计精度。

技术框架:MixTGFormer网络包含两个并行的流,分别用于处理空间和时间信息。每个流都由多个Mixformer模块堆叠而成。Mixformer模块是该网络的核心组件,它包含Mixformer Block和SE Layer。Mixformer Block集成了GCN和Transformer,用于提取和融合局部和全局特征。SE Layer用于增强特征通道之间的信息交互。整个网络的流程是:输入3D人体骨骼序列,经过双流MixTGFormer网络处理,最终输出估计的3D人体姿态。

关键创新:本文的关键创新在于Mixformer模块的设计,它将GCN和Transformer有效地结合在一起。GCN擅长捕捉局部骨骼结构信息,而Transformer擅长捕捉全局时序依赖。通过将两者结合,Mixformer模块能够同时利用局部和全局信息,从而提高姿态估计的精度。此外,双流结构的设计也使得模型能够更好地分离和处理空间和时间信息。

关键设计:Mixformer Block包含两个并行的分支,分别使用GCN和Transformer进行特征提取。GCN分支使用图卷积操作来捕捉局部骨骼结构信息,Transformer分支使用自注意力机制来捕捉全局时序依赖。两个分支的输出被拼接在一起,然后通过一个全连接层进行融合。SE Layer用于增强特征通道之间的信息交互,它通过学习通道之间的依赖关系,自适应地调整每个通道的权重。损失函数未知,但通常会采用均方误差或其变体来衡量估计姿态与真实姿态之间的差异。

📊 实验亮点

MixTGFormer在Human3.6M和MPI-INF-3DHP两个标准数据集上取得了state-of-the-art的性能。在Human3.6M数据集上,P1误差降低至37.6mm,在MPI-INF-3DHP数据集上,P1误差降低至15.7mm。这些结果表明,MixTGFormer能够有效地提高3D人体姿态估计的精度。

🎯 应用场景

该研究成果可广泛应用于人机交互、虚拟现实、运动分析、智能监控等领域。更精确的3D人体姿态估计能够提升人机交互的自然性和准确性,为虚拟现实应用提供更逼真的用户体验,辅助运动员进行动作分析和训练,以及在智能监控系统中实现更准确的行为识别。

📄 摘要(原文)

3D human pose estimation is a classic and important research direction in the field of computer vision. In recent years, Transformer-based methods have made significant progress in lifting 2D to 3D human pose estimation. However, these methods primarily focus on modeling global temporal and spatial relationships, neglecting local skeletal relationships and the information interaction between different channels. Therefore, we have proposed a novel method,the Dual-stream Spatio-temporal GCN-Transformer Network (MixTGFormer). This method models the spatial and temporal relationships of human skeletons simultaneously through two parallel channels, achieving effective fusion of global and local features. The core of MixTGFormer is composed of stacked Mixformers. Specifically, the Mixformer includes the Mixformer Block and the Squeeze-and-Excitation Layer ( SE Layer). It first extracts and fuses various information of human skeletons through two parallel Mixformer Blocks with different modes. Then, it further supplements the fused information through the SE Layer. The Mixformer Block integrates Graph Convolutional Networks (GCN) into the Transformer, enhancing both local and global information utilization. Additionally, we further implement its temporal and spatial forms to extract both spatial and temporal relationships. We extensively evaluated our model on two benchmark datasets (Human3.6M and MPI-INF-3DHP). The experimental results showed that, compared to other methods, our MixTGFormer achieved state-of-the-art results, with P1 errors of 37.6mm and 15.7mm on these datasets, respectively.