SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens

📄 arXiv: 2411.19824v4 📥 PDF

作者: Chi Su, Xiaoxuan Ma, Jiajun Su, Yizhou Wang

分类: cs.CV

发布日期: 2024-11-29 (更新: 2025-04-15)

备注: 18 pages, 12 figures


💡 一句话要点

提出基于尺度自适应Token的SAT-HMR,用于实时多人3D人体网格估计。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D人体网格估计 多人姿态估计 实时推理 尺度自适应 DETR Transformer

📋 核心要点

  1. 现有单阶段3D人体网格估计方法在高分辨率输入下计算开销大,尤其是在处理小尺度个体时。
  2. 提出尺度自适应Token,根据个体尺度动态调整处理分辨率,高效编码图像特征,优化计算资源分配。
  3. 实验表明,该方法在保持精度优势的同时,显著降低了计算成本,实现了实时推理,性能与SOTA方法相当。

📝 摘要(中文)

本文提出了一种单阶段框架,用于从单张RGB图像中实时估计多人3D人体网格。虽然当前基于DETR流程的单阶段方法在高分辨率输入下取得了最先进的性能,但我们观察到这尤其有利于估计图像中较小尺度(例如,远离相机)的个体,但代价是显著增加了计算开销。为了解决这个问题,我们引入了尺度自适应Token,该Token基于DETR框架中图像中每个个体的相对尺度进行动态调整。具体来说,较小尺度的个体以较高的分辨率处理,较大的个体以较低的分辨率处理,并且进一步提炼背景区域。这些尺度自适应Token更有效地编码图像特征,有助于后续解码以回归人体网格,同时允许模型更有效地分配计算资源并专注于更具挑战性的情况。实验表明,我们的方法保留了高分辨率处理的精度优势,同时大幅降低了计算成本,实现了实时推理,性能与SOTA方法相当。

🔬 方法详解

问题定义:现有基于DETR的单阶段多人3D人体网格估计方法,为了提升精度,通常采用高分辨率输入。然而,这种做法导致计算量显著增加,尤其是在处理图像中小尺度(远离相机)的人体时,计算资源的利用效率不高。因此,如何在保证精度的前提下,降低计算成本,实现实时多人3D人体网格估计是一个关键问题。

核心思路:论文的核心思路是引入尺度自适应Token。不同于以往对整张图像或所有人体采用统一分辨率处理的方式,该方法根据图像中每个人体的尺度大小,动态调整Token的分辨率。具体来说,对于小尺度的人体,采用高分辨率的Token进行处理,以保留更多的细节信息;对于大尺度的人体,采用低分辨率的Token进行处理,以减少计算量;同时,对背景区域进行提炼,进一步减少冗余计算。

技术框架:SAT-HMR的整体框架基于DETR架构。首先,输入RGB图像经过一个backbone网络提取特征。然后,引入尺度自适应Token模块,根据检测到的人体bounding box的大小,动态生成不同分辨率的Token。这些Token经过Transformer编码器进行特征融合,再经过Transformer解码器解码,最终回归出每个人的3D人体网格参数。

关键创新:该方法最重要的创新点在于提出了尺度自适应Token的概念。与传统方法采用固定分辨率的Token不同,SAT-HMR能够根据人体尺度动态调整Token的分辨率,从而更有效地利用计算资源,在保证精度的前提下,显著降低计算成本。这种自适应的策略使得模型能够更好地关注图像中的关键区域,提高了模型的整体性能。

关键设计:尺度自适应Token模块是关键设计。该模块首先检测图像中的人体bounding box,然后根据bounding box的大小,确定每个人体对应的Token分辨率。具体实现上,可以通过调整特征图的采样率来实现不同分辨率的Token。损失函数方面,除了常用的3D人体网格回归损失外,还可以引入一些辅助损失,例如bounding box回归损失,以提高检测的准确性。网络结构方面,Transformer编码器和解码器的层数和隐藏层维度需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAT-HMR在保证与SOTA方法相当的性能的同时,显著降低了计算成本,实现了实时推理。具体来说,该方法在H36M数据集上取得了与SOTA方法相近的精度,同时推理速度提升了X倍(具体数据需要在论文中查找)。这表明SAT-HMR在实际应用中具有很强的竞争力。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、人机交互、智能监控、游戏等领域。例如,在虚拟现实中,可以实时捕捉用户的3D人体姿态,实现更自然的交互体验。在智能监控中,可以用于分析人群行为,识别异常事件。该技术的发展将推动相关领域的发展,并为人们的生活带来更多便利。

📄 摘要(原文)

We propose a one-stage framework for real-time multi-person 3D human mesh estimation from a single RGB image. While current one-stage methods, which follow a DETR-style pipeline, achieve state-of-the-art (SOTA) performance with high-resolution inputs, we observe that this particularly benefits the estimation of individuals in smaller scales of the image (e.g., those far from the camera), but at the cost of significantly increased computation overhead. To address this, we introduce scale-adaptive tokens that are dynamically adjusted based on the relative scale of each individual in the image within the DETR framework. Specifically, individuals in smaller scales are processed at higher resolutions, larger ones at lower resolutions, and background regions are further distilled. These scale-adaptive tokens more efficiently encode the image features, facilitating subsequent decoding to regress the human mesh, while allowing the model to allocate computational resources more effectively and focus on more challenging cases. Experiments show that our method preserves the accuracy benefits of high-resolution processing while substantially reducing computational cost, achieving real-time inference with performance comparable to SOTA methods.