ER-Pose: Rethinking Keypoint-Driven Representation Learning for Real-Time Human Pose Estimation
作者: Nanjun Li, Pinqi Cheng, Zean Liu, Minghe Tian, Xuanyin Wang
分类: cs.CV
发布日期: 2026-03-09
💡 一句话要点
ER-Pose:重新思考关键点驱动的单阶段人体姿态估计,提升精度与效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人体姿态估计 单阶段检测 关键点驱动 动态样本分配 无NMS YOLO 深度学习
📋 核心要点
- 现有单阶段姿态估计方法受限于框驱动范式,导致样本分配和特征表示存在偏差,影响姿态估计精度。
- 提出关键点驱动的学习范式,移除边界框预测,重新设计预测头,并引入动态样本分配策略,提升姿态估计性能。
- ER-Pose在MS COCO和CrowdPose数据集上取得了显著的AP提升,同时减少了参数量并提高了推理效率。
📝 摘要(中文)
单阶段多人姿态估计旨在统一框架内同时进行人体定位和关键点预测,具有推理效率和架构简单性优势。然而,现有方法通常继承了目标检测的框驱动建模范式,姿态估计受到边界框监督的隐式约束,导致样本分配和特征表示偏差,造成任务不匹配并限制了姿态估计精度。本文从关键点驱动的角度重新审视框驱动的单阶段姿态估计,发现并行目标之间的语义冲突是性能下降的关键原因。为此,提出了一种关键点驱动的学习范式,将姿态估计提升为主要预测目标。具体而言,移除了边界框预测,并重新设计了预测头,以更好地适应姿态估计的高维结构化表示。进一步引入了关键点驱动的动态样本分配策略,使训练目标与姿态评估指标对齐,从而实现训练期间的密集监督和高效的无NMS推理。此外,提出了一种平滑的基于OKS的损失函数,以稳定回归姿态估计中的优化。基于这些设计,开发了一个单阶段多人姿态估计框架,称为ER-Pose。在MS COCO和CrowdPose上,ER-Pose-n在没有预训练的情况下实现了3.2/6.7的AP提升,在有预训练的情况下实现了7.4/4.9的AP提升,同时参数更少,推理效率更高。
🔬 方法详解
问题定义:现有单阶段多人姿态估计方法,特别是基于YOLO等目标检测框架的方法,采用框驱动的建模方式。这种方式将姿态估计隐式地约束在边界框的监督之下,导致样本分配和特征表示产生偏差,最终影响姿态估计的准确性。现有方法在训练目标上存在语义冲突,即边界框检测和关键点预测两个任务的目标不一致。
核心思路:论文的核心思路是从关键点驱动的角度出发,重新设计单阶段姿态估计框架。通过将姿态估计提升为主要预测目标,并移除边界框预测,从而消除框驱动范式带来的偏差。通过关键点驱动的动态样本分配策略,使训练目标与姿态评估指标对齐,实现更有效的学习。
技术框架:ER-Pose框架主要包含以下几个部分:首先,移除了传统的边界框预测分支。其次,重新设计了预测头,使其更适合高维结构化的姿态表示。然后,引入了关键点驱动的动态样本分配策略,用于选择合适的训练样本。最后,使用平滑的基于OKS的损失函数来优化模型。整体流程是从输入图像经过骨干网络提取特征,然后通过重新设计的预测头进行关键点预测,最后使用动态样本分配和OKS损失进行训练。
关键创新:论文最重要的技术创新点在于提出了关键点驱动的学习范式,这与传统的框驱动范式形成了鲜明对比。通过移除边界框预测,消除了框驱动范式带来的偏差,使模型能够更专注于姿态估计任务。关键点驱动的动态样本分配策略也是一个重要的创新点,它能够根据关键点的预测质量来选择训练样本,从而提高训练效率。
关键设计:关键点驱动的动态样本分配策略是根据预测的关键点和真实关键点之间的OKS(Object Keypoint Similarity)值来动态地分配样本。具体来说,对于每个预测的关键点,计算其与所有真实关键点之间的OKS值,并选择OKS值最高的真实关键点作为其正样本。平滑的基于OKS的损失函数旨在稳定回归过程,采用Smooth L1损失,并以OKS作为权重,使得模型更加关注难以回归的关键点。
🖼️ 关键图片
📊 实验亮点
ER-Pose在MS COCO数据集上,在没有预训练的情况下,相比于基线YOLO-Pose,AP提升了3.2,在有预训练的情况下,AP提升了7.4。在CrowdPose数据集上,在没有预训练的情况下,AP提升了6.7,在有预训练的情况下,AP提升了4.9。同时,ER-Pose在取得性能提升的同时,减少了参数量并提高了推理效率。
🎯 应用场景
ER-Pose可应用于视频监控、人机交互、运动分析、虚拟现实等领域。在视频监控中,可以用于识别人体姿态异常行为。在人机交互中,可以实现更自然的人体姿态控制。在运动分析中,可以用于评估运动员的动作规范性。在虚拟现实中,可以用于构建更逼真的人体模型和动画。
📄 摘要(原文)
Single-stage multi-person pose estimation aims to jointly perform human localization and keypoint prediction within a unified framework, offering advantages in inference efficiency and architectural simplicity. Consequently, multi-scale real-time detection architectures, such as YOLO-like models, are widely adopted for real-time pose estimation. However, these approaches typically inherit a box-driven modeling paradigm from object detection, in which pose estimation is implicitly constrained by bounding-box supervision during training. This formulation introduces biases in sample assignment and feature representation, resulting in task misalignment and ultimately limiting pose estimation accuracy. In this work, we revisit box-driven single-stage pose estimation from a keypoint-driven perspective and identify semantic conflicts among parallel objectives as a key source of performance degradation. To address this issue, we propose a keypoint-driven learning paradigm that elevates pose estimation to a primary prediction objective. Specifically, we remove bounding-box prediction and redesign the prediction head to better accommodate the high-dimensional structured representations for pose estimation. We further introduce a keypoint-driven dynamic sample assignment strategy to align training objectives with pose evaluation metrics, enabling dense supervision during training and efficient NMS-free inference. In addition, we propose a smooth OKS-based loss function to stabilize optimization in regression-based pose estimation. Based on these designs, we develop a single-stage multi-person pose estimation framework, termed ER-Pose. On MS COCO and CrowdPose, ER-Pose-n achieves AP improvements of 3.2/6.7 without pre-training and 7.4/4.9 with pre-training respectively compared with the baseline YOLO-Pose. These improvements are achieved with fewer parameters and higher inference efficiency.