MAEPose: Self-Supervised Spatiotemporal Learning for Human Pose Estimation on mmWave Video
作者: Xijia Wei, Yuan Fang, Kevin Chetty, Youngjun Cho, Nadia Bianchi-Berthouze
分类: cs.CV, cs.AI
发布日期: 2026-04-30
💡 一句话要点
MAEPose:基于毫米波视频的自监督时空人体姿态估计
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 毫米波雷达 人体姿态估计 自监督学习 掩码自编码器 时空学习 热图解码器 隐私保护
📋 核心要点
- 现有基于毫米波雷达的人体姿态估计方法依赖预处理的中间表示,损失了原始雷达视频中的丰富时空信息,且增加了系统复杂度。
- MAEPose利用掩码自编码器从无标签毫米波视频中学习时空运动感知的通用表示,避免了人工特征提取,并提升了模型的泛化能力。
- 实验结果表明,MAEPose在多个数据集上显著优于现有方法,并在旁观者干扰下表现出良好的鲁棒性,验证了该方法的有效性。
📝 摘要(中文)
本文提出了一种基于掩码自编码器(MAE)的人体姿态估计方法MAEPose,直接作用于毫米波(mmWave)频谱视频。与现有方法依赖预提取的中间表示(如稀疏点云或频谱图图像)不同,MAEPose从无标签雷达视频中学习时空运动感知的通用表示,并利用热图解码器进行多帧姿态估计预测。在三个数据集上进行的留一法交叉验证表明,MAEPose在MPJPE指标上显著优于现有技术,最高提升达22.1% (p<0.05)。在零样本旁观者干扰下,MAEPose仍保持稳健的准确性,误差仅增加6.5%。消融研究证实了预训练和热图解码器的重要贡献。模态分析表明,使用Range-Doppler视频作为输入比Range-Azimuth或它们的融合能实现更好的姿态估计性能,且计算成本更低。
🔬 方法详解
问题定义:现有基于毫米波雷达的人体姿态估计方法通常依赖于预先提取的中间表示,例如稀疏点云或频谱图图像。这种做法的痛点在于,它丢弃了雷达视频流中自然存在的丰富的时空信息,而这些信息对于学习通用的姿态表示至关重要。此外,现有的解决方案主要以端到端监督的方式进行,没有充分利用未标记的原始视频流来学习广义表示。
核心思路:MAEPose的核心思路是利用掩码自编码器(MAE)从无标签的毫米波雷达视频中学习时空运动感知的通用表示。通过对输入视频进行掩码,迫使模型学习重建被掩盖的部分,从而学习到视频中的时空依赖关系。这种自监督学习方式可以有效利用大量的无标签数据,提升模型的泛化能力。
技术框架:MAEPose的整体框架包括三个主要阶段:1)掩码编码器:将输入的毫米波频谱视频进行掩码,并使用编码器提取特征;2)自监督预训练:使用掩码自编码器进行预训练,学习视频的时空表示;3)热图解码器:使用预训练的编码器提取特征,并通过热图解码器预测人体关键点的位置。
关键创新:MAEPose最重要的技术创新点在于它直接在原始毫米波频谱视频上进行自监督学习,避免了人工特征提取和中间表示的生成。与现有方法相比,MAEPose能够更好地利用视频中的时空信息,学习到更鲁棒和通用的姿态表示。此外,使用热图解码器进行姿态估计,能够更准确地预测关键点的位置。
关键设计:在预训练阶段,采用高比例的掩码(例如75%),迫使模型学习更强的时空依赖关系。损失函数采用均方误差(MSE)来衡量重建误差。热图解码器采用卷积神经网络,将编码器的输出映射到人体关键点的热图。在推理阶段,将多帧视频输入到模型中,并对预测的热图进行平均,以提高姿态估计的准确性。
🖼️ 关键图片
📊 实验亮点
MAEPose在三个数据集上进行了评估,结果表明其性能显著优于现有方法。在MPJPE指标上,MAEPose最高提升达22.1% (p<0.05)。在零样本旁观者干扰下,MAEPose仍保持稳健的准确性,误差仅增加6.5%。消融研究表明,预训练和热图解码器对性能提升有重要贡献。模态分析表明,Range-Doppler视频作为输入能实现更好的姿态估计性能,且计算成本更低。
🎯 应用场景
MAEPose在隐私保护的人体活动识别、智能家居、医疗健康等领域具有广泛的应用前景。毫米波雷达具有穿透性强、不受光照影响等优点,且能有效保护用户隐私。MAEPose能够直接从毫米波视频中提取人体姿态信息,为这些应用提供可靠的数据支持,并有望推动相关领域的发展。
📄 摘要(原文)
Millimetre-wave (mmWave) radar offers a more privacy-preserving alternative to RGB-based human pose estimation. However, existing methods typically rely on pre-extracted intermediate representations such as sparse point clouds or spectrogram images, where the rich spatiotemporal information naturally present in radar video streams is discarded for model learning, while such signal processing adds system complexity. In addition, existing solutions are mainly conducted in an end-to-end supervised manner without leveraging unlabelled raw video streams to learn generalized representations. In this study, we present MAEPose, a masked autoencoding-based human pose estimation approach that operates directly on mmWave spectrogram videos. MAEPose learns spatiotemporal motion-aware generalized representations from unlabelled radar video, and leverages its heatmap decoder for multi-frame pose estimation predictions. We evaluate it across three datasets based on leave-one-person-out cross-validation with rigorous statistical testing. MAEPose consistently outperforms state-of-the-art baselines by up to 22.1% in MPJPE p<0.05, and maintains robust accuracy under zero-shot bystander interference with only a 6.5% error increase. Ablation studies confirm that both the pre-training and the heatmap decoder contribute substantially, while modality analysis indicates that leveraging Range-Doppler video as input achieves better pose estimation performance than Range-Azimuth or their fusion, with lower computational cost.