3DPCNet: Pose Canonicalization for Robust Viewpoint-Invariant 3D Kinematic Analysis from Monocular RGB cameras

📄 arXiv: 2509.23455v1 📥 PDF

作者: Tharindu Ekanayake, Constantino Álvarez Casado, Miguel Bordallo López

分类: cs.CV, cs.LG

发布日期: 2025-09-27

备注: 8 pages, 6 figures, 1 table, 21 references, conference, Code available at: https://github.com/tharindu326/3DPCNet


💡 一句话要点

提出3DPCNet以解决单目RGB相机下的3D姿态标准化问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 3D姿态估计 运动分析 自监督学习 图卷积网络 变换器 姿态校正 健康监测 虚拟现实

📋 核心要点

  1. 现有的单目3D姿态估计方法生成以相机为中心的骨骼,导致运动信号的视角依赖性,影响比较分析的准确性。
  2. 论文提出了3DPCNet,一个估计器无关的模块,能够将输入姿态校正为一致的身体中心标准框架,提升了姿态分析的可靠性。
  3. 在MM-Fi基准测试中,3DPCNet显著降低了平均旋转误差和每个关节位置的平均误差,验证了其在运动分析中的有效性。

📝 摘要(中文)

单目3D姿态估计器生成以相机为中心的骨骼,导致视角依赖的运动信号,给健康和运动科学等应用中的比较分析带来困难。我们提出了3DPCNet,这是一个紧凑的、估计器无关的模块,直接对3D关节坐标进行处理,将任何输入姿态校正为一致的、以身体为中心的标准框架。该模型通过门控交叉注意机制融合了图卷积网络的局部骨骼特征和变换器的全局上下文。模型预测的连续6D旋转被映射到SO(3)矩阵以对齐姿态。在MM-Fi数据集上以自监督方式训练模型,使用合成旋转姿态,复合损失确保准确的旋转和姿态重建。在MM-Fi基准测试中,3DPCNet将平均旋转误差从20°以上降低到3.4°,每个关节位置的平均误差从约64毫米降低到47毫米。对TotalCapture数据集的定性评估进一步表明,我们的方法生成的视频加速度信号与真实的IMU传感器数据具有强视觉对应性,确认了我们的模块消除了视角变异性,从而实现了物理上合理的运动分析。

🔬 方法详解

问题定义:本论文旨在解决单目3D姿态估计中产生的视角依赖性问题,现有方法难以进行有效的比较分析,尤其在健康和运动科学领域。

核心思路:3DPCNet通过将输入的3D关节坐标校正为一致的身体中心标准框架,消除了视角变异性,从而提高了运动分析的准确性和可靠性。

技术框架:该模型采用混合编码器架构,结合了图卷积网络的局部骨骼特征和变换器的全局上下文,利用门控交叉注意机制进行信息融合。模型输出一个连续的6D旋转,并将其映射到SO(3)矩阵以实现姿态对齐。

关键创新:3DPCNet的主要创新在于其估计器无关性和自监督训练方式,使其能够在不同的3D姿态估计任务中保持一致性,显著提升了姿态校正的精度。

关键设计:模型在MM-Fi数据集上进行自监督训练,使用合成旋转姿态,复合损失函数确保了旋转和姿态重建的准确性。实验结果表明,该设计有效降低了姿态估计的误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MM-Fi基准测试中,3DPCNet将平均旋转误差从20°以上降低至3.4°,每个关节位置的平均误差从约64毫米降低至47毫米,显示出显著的性能提升。此外,定性评估表明,生成的加速度信号与真实IMU数据具有强视觉对应性,验证了方法的有效性。

🎯 应用场景

该研究在健康监测、运动分析和虚拟现实等领域具有广泛的应用潜力。通过提供一致的姿态分析框架,3DPCNet能够帮助研究人员和专业人士更准确地评估运动表现和身体状态,推动相关领域的发展。

📄 摘要(原文)

Monocular 3D pose estimators produce camera-centered skeletons, creating view-dependent kinematic signals that complicate comparative analysis in applications such as health and sports science. We present 3DPCNet, a compact, estimator-agnostic module that operates directly on 3D joint coordinates to rectify any input pose into a consistent, body-centered canonical frame. Its hybrid encoder fuses local skeletal features from a graph convolutional network with global context from a transformer via a gated cross-attention mechanism. From this representation, the model predicts a continuous 6D rotation that is mapped to an $SO(3)$ matrix to align the pose. We train the model in a self-supervised manner on the MM-Fi dataset using synthetically rotated poses, guided by a composite loss ensuring both accurate rotation and pose reconstruction. On the MM-Fi benchmark, 3DPCNet reduces the mean rotation error from over 20$^{\circ}$ to 3.4$^{\circ}$ and the Mean Per Joint Position Error from ~64 mm to 47 mm compared to a geometric baseline. Qualitative evaluations on the TotalCapture dataset further demonstrate that our method produces acceleration signals from video that show strong visual correspondence to ground-truth IMU sensor data, confirming that our module removes viewpoint variability to enable physically plausible motion analysis.