SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation
作者: Sichen Chen, Yingyi Zhang, Siming Huang, Ran Yi, Ke Fan, Ruixin Zhang, Peixian Chen, Jun Wang, Shouhong Ding, Lizhuang Ma
分类: cs.CV
发布日期: 2024-04-04
备注: Accepted by CVPR 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出SDPose以解决小型变换器模型性能不足问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 姿态估计 自蒸馏 变换器模型 多循环变换器 边缘计算
📋 核心要点
- 现有基于变换器的人类姿态估计模型计算资源消耗大,难以在边缘设备上有效部署。
- 本文提出SDPose,通过设计多循环变换器(MCT)和自蒸馏方案,提升小型变换器模型的表现。
- 在MSCOCO验证集上,SDPose-T和SDPose-S-V2分别取得了69.7%和73.5%的mAP,显著优于现有小型模型。
📝 摘要(中文)
近年来,基于变换器的方法在人类姿态估计(HPE)中取得了最先进的预测质量。然而,大多数顶尖的变换器模型计算资源消耗大,难以在边缘计算平台上部署。为了解决这一问题,本文提出了SDPose,一种自蒸馏方法,旨在提升小型变换器模型的性能。通过设计多循环变换器(MCT)模块,充分挖掘小模型参数的潜力,并引入自蒸馏方案,从MCT模块提取知识到简单前向模型。实验结果表明,SDPose-T在MSCOCO验证集上取得了69.7%的mAP,参数量为4.4M,计算量为1.8 GFLOPs,SDPose-S-V2则达到了73.5%的mAP,参数量为6.2M,计算量为4.7 GFLOPs,成为主流小型神经网络方法中的新一代最优解。
🔬 方法详解
问题定义:本文旨在解决小型变换器模型在姿态估计任务中因参数量少而导致的欠拟合问题。现有方法在资源受限的边缘设备上表现不佳,难以满足实际应用需求。
核心思路:通过引入多循环变换器(MCT)模块,充分利用小模型的参数潜力,同时采用自蒸馏策略,将MCT模块的知识迁移至简单前向模型,以减少计算开销。
技术框架:整体架构包括MCT模块和自蒸馏机制。MCT模块通过多次前向传播来增强特征提取能力,而自蒸馏机制则在不增加额外计算负担的情况下,提升模型的学习效果。
关键创新:最重要的创新在于设计了MCT模块,使得小型模型能够在保持较低计算量的同时,显著提升性能。与传统方法相比,SDPose在资源利用上更加高效。
关键设计:在参数设置上,SDPose-T和SDPose-S-V2分别使用4.4M和6.2M参数,损失函数采用标准的交叉熵损失,同时在训练过程中引入了自蒸馏损失,以增强模型的学习能力。整体网络结构经过优化,确保在低计算量下实现高效的姿态估计。
🖼️ 关键图片
📊 实验亮点
SDPose在MSCOCO验证集上取得了69.7%的mAP(SDPose-T)和73.5%的mAP(SDPose-S-V2),相较于以往的小型神经网络方法,分别提升了显著的性能,展示了其在资源受限环境下的优越性。
🎯 应用场景
SDPose的研究成果可广泛应用于智能监控、增强现实和人机交互等领域。由于其在边缘设备上的高效性,能够为实时姿态估计提供支持,推动相关技术的实际应用与发展。未来,SDPose有望在更多资源受限的场景中发挥重要作用。
📄 摘要(原文)
Recently, transformer-based methods have achieved state-of-the-art prediction quality on human pose estimation(HPE). Nonetheless, most of these top-performing transformer-based models are too computation-consuming and storage-demanding to deploy on edge computing platforms. Those transformer-based models that require fewer resources are prone to under-fitting due to their smaller scale and thus perform notably worse than their larger counterparts. Given this conundrum, we introduce SDPose, a new self-distillation method for improving the performance of small transformer-based models. To mitigate the problem of under-fitting, we design a transformer module named Multi-Cycled Transformer(MCT) based on multiple-cycled forwards to more fully exploit the potential of small model parameters. Further, in order to prevent the additional inference compute-consuming brought by MCT, we introduce a self-distillation scheme, extracting the knowledge from the MCT module to a naive forward model. Specifically, on the MSCOCO validation dataset, SDPose-T obtains 69.7% mAP with 4.4M parameters and 1.8 GFLOPs. Furthermore, SDPose-S-V2 obtains 73.5% mAP on the MSCOCO validation dataset with 6.2M parameters and 4.7 GFLOPs, achieving a new state-of-the-art among predominant tiny neural network methods. Our code is available at https://github.com/MartyrPenink/SDPose.