Dual-stream Transformer-GCN Model with Contextualized Representations Learning for Monocular 3D Human Pose Estimation
作者: Mingrui Ye, Lianping Yang, Hegui Zhu, Zenghao Zheng, Xin Wang, Yantao Lo
分类: cs.CV, cs.AI
发布日期: 2025-04-02
💡 一句话要点
提出基于Transformer-GCN双流模型的单目3D人体姿态估计方法,提升泛化性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 单目3D人体姿态估计 Transformer 图卷积网络 双流模型 上下文表示学习 自蒸馏 时空建模
📋 核心要点
- 单目3D人体姿态估计面临深度模糊和数据稀缺等挑战,现有方法泛化能力不足。
- 提出Transformer-GCN双流模型,通过上下文表示学习和自蒸馏预训练,提升模型对时空关系的理解。
- 实验表明,该方法在Human3.6M和MPI-INF-3DHP数据集上取得了SOTA性能,并具有良好的鲁棒性。
📝 摘要(中文)
本文提出了一种新颖的单目3D人体姿态估计方法,该方法利用Transformer-GCN双流模型进行上下文表示学习。单目3D人体姿态估计面临深度模糊、3D标注数据有限、建模不平衡和模型泛化能力受限等挑战。为了解决这些限制,本文引入了一种基于上下文表示学习的开创性运动预训练方法。具体而言,该方法涉及掩蔽2D姿态特征,并利用Transformer-GCN双流模型通过自蒸馏设置学习高维表示。通过关注上下文表示学习和时空建模,该方法增强了模型理解姿势之间时空关系的能力,从而实现卓越的泛化。此外,利用Transformer-GCN双流模型,该方法有效地平衡了视频姿态估计中的全局和局部交互。该模型自适应地整合来自Transformer和GCN流的信息,其中GCN流有效地学习相邻关键点和帧之间的局部关系,而Transformer流捕获全面的全局时空特征。该模型在两个基准数据集上实现了最先进的性能,在Human3.6M上MPJPE为38.0mm,P-MPJPE为31.9mm,在MPI-INF-3DHP上MPJPE为15.9mm。此外,在公共数据集和真实视频上的可视化实验证明了该方法的鲁棒性和泛化能力。
🔬 方法详解
问题定义:单目3D人体姿态估计旨在从单张图像或视频中预测人体骨骼的3D坐标。现有方法受限于深度模糊性、3D标注数据不足以及模型对复杂时空关系的建模能力有限,导致泛化性能较差。尤其是在真实场景中,遮挡、光照变化等因素会进一步降低估计精度。
核心思路:论文的核心思路是利用Transformer和GCN分别建模全局和局部时空关系,并通过上下文表示学习增强模型对姿态之间依赖关系的理解。Transformer擅长捕获长距离依赖,GCN擅长建模局部结构信息。结合两者优势,可以更全面地理解人体姿态的时空动态。此外,通过自蒸馏预训练,模型可以从无标签数据中学习到更鲁棒的特征表示。
技术框架:该方法采用Transformer-GCN双流模型。首先,从2D姿态估计结果中提取特征。然后,这些特征分别输入到Transformer和GCN两个分支。Transformer分支捕获全局时空关系,GCN分支学习局部结构信息。两个分支的输出进行融合,最终预测3D人体姿态。在训练阶段,采用自蒸馏策略,利用未标注数据进行预训练,提升模型的泛化能力。
关键创新:该方法最重要的创新点在于Transformer-GCN双流模型的架构设计以及上下文表示学习的引入。与传统方法相比,该方法能够更有效地建模人体姿态的时空依赖关系,并利用自蒸馏预训练提升模型的鲁棒性。双流结构能够兼顾全局和局部信息,从而更准确地估计3D人体姿态。
关键设计:在Transformer分支中,使用了多头注意力机制来捕获不同尺度的时空依赖关系。在GCN分支中,图的结构根据人体骨骼的连接关系进行定义。自蒸馏预训练采用掩蔽2D姿态特征的方式,迫使模型学习从上下文信息中恢复被掩盖的特征,从而增强模型的表示能力。损失函数包括3D姿态预测损失和自蒸馏损失。
🖼️ 关键图片
📊 实验亮点
该模型在Human3.6M数据集上取得了MPJPE为38.0mm,P-MPJPE为31.9mm的性能,在MPI-INF-3DHP数据集上取得了MPJPE为15.9mm的性能,均达到了SOTA水平。相较于之前的最佳方法,在泛化性和鲁棒性上均有显著提升。可视化结果也表明,该方法在复杂场景下仍能准确估计3D人体姿态。
🎯 应用场景
该研究成果可应用于人机交互、虚拟现实、动作捕捉、智能监控、康复训练等领域。准确的3D人体姿态估计是理解人类行为的关键,能够为这些应用提供更自然、更智能的交互方式。未来,该技术有望在自动驾驶、机器人导航等领域发挥重要作用。
📄 摘要(原文)
This paper introduces a novel approach to monocular 3D human pose estimation using contextualized representation learning with the Transformer-GCN dual-stream model. Monocular 3D human pose estimation is challenged by depth ambiguity, limited 3D-labeled training data, imbalanced modeling, and restricted model generalization. To address these limitations, our work introduces a groundbreaking motion pre-training method based on contextualized representation learning. Specifically, our method involves masking 2D pose features and utilizing a Transformer-GCN dual-stream model to learn high-dimensional representations through a self-distillation setup. By focusing on contextualized representation learning and spatial-temporal modeling, our approach enhances the model's ability to understand spatial-temporal relationships between postures, resulting in superior generalization. Furthermore, leveraging the Transformer-GCN dual-stream model, our approach effectively balances global and local interactions in video pose estimation. The model adaptively integrates information from both the Transformer and GCN streams, where the GCN stream effectively learns local relationships between adjacent key points and frames, while the Transformer stream captures comprehensive global spatial and temporal features. Our model achieves state-of-the-art performance on two benchmark datasets, with an MPJPE of 38.0mm and P-MPJPE of 31.9mm on Human3.6M, and an MPJPE of 15.9mm on MPI-INF-3DHP. Furthermore, visual experiments on public datasets and in-the-wild videos demonstrate the robustness and generalization capabilities of our approach.