SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation

作者: Wanqi Yin, Zhongang Cai, Ruisi Wang, Ailing Zeng, Chen Wei, Qingping Sun, Haiyi Mei, Yanjun Wang, Hui En Pang, Mingyuan Zhang, Lei Zhang, Chen Change Loy, Atsushi Yamashita, Lei Yang, Ziwei Liu

分类: cs.CV, cs.GR, cs.HC, cs.MM, cs.RO

发布日期: 2025-01-16

备注: An extension of SMPLer-X [arXiv:2309.17448]. Homepage: https://caizhongang.com/projects/SMPLer-X/

🔗 代码/项目: GITHUB

💡 一句话要点

SMPLest-X：通过极致扩展实现富有表现力的人体姿态和形状估计

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人体姿态估计 形状估计 深度学习 视觉Transformer 大数据 基础模型 通用模型

📋 核心要点

现有EHPS方法侧重于在有限数据集上训练特定架构，泛化能力不足，难以应对真实世界复杂场景。
本文通过大规模数据集和模型扩展，训练通用EHPS基础模型，并研究了数据和模型规模对性能的影响。
实验表明，该方法在多个基准测试中取得了SOTA结果，并具有良好的迁移能力，验证了其有效性。

📝 摘要（中文）

富有表现力的人体姿态和形状估计(EHPS)统一了身体、手部和面部的运动捕捉，具有广泛的应用。尽管取得了令人鼓舞的进展，但当前最先进的方法主要集中于在有限的数据集上训练创新的架构设计。本文研究了扩展EHPS以构建通用基础模型的影响。1) 在数据扩展方面，我们对40个EHPS数据集进行了系统研究，涵盖了单个数据集无法处理的各种场景。更重要的是，利用从广泛的基准测试过程中获得的见解，我们优化了训练方案并选择了数据集，从而显著提升了EHPS能力。最终，我们从不同的数据源获得了1000万个训练实例，实现了收益递减。2) 在模型扩展方面，我们利用视觉Transformer（高达ViT-Huge作为骨干网络）来研究模型大小在EHPS中的缩放规律。为了排除算法设计的影响，我们的实验基于两个极简架构：SMPLer-X，它包含一个用于手部和面部定位的中间步骤；以及SMPLest-X，一个更简单的版本，它将网络简化到最基本的部分，并突出了在捕捉铰接手方面取得的重大进展。凭借大数据和大型模型，基础模型在各种测试基准上表现出强大的性能，并且具有出色的迁移到甚至未见环境的能力。此外，我们的微调策略将通用模型转变为专用模型，使它们能够实现进一步的性能提升。值得注意的是，我们的基础模型在AGORA、UBody、EgoBody以及我们提出的用于全面手部评估的SynHand数据集等七个基准上始终如一地提供最先进的结果。

🔬 方法详解

问题定义：现有富有表现力的人体姿态和形状估计(EHPS)方法依赖于在特定数据集上训练的特定架构，导致泛化能力受限，难以适应真实世界中各种复杂场景。这些方法通常难以处理不同视角、光照条件、遮挡以及多样化的人体姿态和形状。

核心思路：本文的核心思路是通过大规模的数据和模型扩展来构建一个通用的EHPS基础模型。通过在大量多样化的数据集上训练大型模型，使其能够学习到更鲁棒和泛化的特征表示，从而提高在各种场景下的性能。这种方法类似于自然语言处理领域中预训练大型语言模型的思想。

技术框架：该方法主要包含两个关键部分：数据扩展和模型扩展。数据扩展方面，作者系统地研究了40个EHPS数据集，并优化了训练方案，最终选择了能够显著提升EHPS能力的数据集。模型扩展方面，作者利用视觉Transformer（ViT-Huge）作为骨干网络，研究了模型大小对EHPS性能的影响。作者基于SMPLer-X和SMPLest-X两个极简架构进行实验，其中SMPLer-X包含一个用于手部和面部定位的中间步骤，而SMPLest-X则进一步简化了网络结构。

关键创新：该方法最重要的技术创新在于通过大规模的数据和模型扩展来构建通用的EHPS基础模型。与以往专注于特定数据集和架构设计的方法不同，该方法强调利用大数据和大型模型来学习更鲁棒和泛化的特征表示。此外，作者还提出了SMPLest-X架构，它在捕捉铰接手方面取得了重大进展。

关键设计：在数据选择方面，作者通过基准测试选择了能够显著提升EHPS能力的数据集。在模型架构方面，作者采用了视觉Transformer作为骨干网络，并设计了SMPLer-X和SMPLest-X两个极简架构。在训练策略方面，作者采用了微调策略，将通用模型转变为专用模型，从而进一步提升了性能。具体的损失函数和参数设置等细节在论文中未明确说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

该方法在AGORA、UBody、EgoBody和SynHand等七个基准测试中取得了SOTA结果，证明了其优越的性能。通过大规模数据和模型扩展，该方法能够学习到更鲁棒和泛化的特征表示，从而在各种场景下都表现出色。此外，该方法还具有良好的迁移能力，能够适应未见环境。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏、动画制作、人机交互、运动分析、医疗康复等领域。通过准确估计人体姿态和形状，可以实现更自然、更逼真的人机交互体验，并为相关应用提供更强大的技术支持。未来，该技术有望进一步应用于自动驾驶、智能监控等领域。

📄 摘要（原文）

Expressive human pose and shape estimation (EHPS) unifies body, hands, and face motion capture with numerous applications. Despite encouraging progress, current state-of-the-art methods focus on training innovative architectural designs on confined datasets. In this work, we investigate the impact of scaling up EHPS towards a family of generalist foundation models. 1) For data scaling, we perform a systematic investigation on 40 EHPS datasets, encompassing a wide range of scenarios that a model trained on any single dataset cannot handle. More importantly, capitalizing on insights obtained from the extensive benchmarking process, we optimize our training scheme and select datasets that lead to a significant leap in EHPS capabilities. Ultimately, we achieve diminishing returns at 10M training instances from diverse data sources. 2) For model scaling, we take advantage of vision transformers (up to ViT-Huge as the backbone) to study the scaling law of model sizes in EHPS. To exclude the influence of algorithmic design, we base our experiments on two minimalist architectures: SMPLer-X, which consists of an intermediate step for hand and face localization, and SMPLest-X, an even simpler version that reduces the network to its bare essentials and highlights significant advances in the capture of articulated hands. With big data and the large model, the foundation models exhibit strong performance across diverse test benchmarks and excellent transferability to even unseen environments. Moreover, our finetuning strategy turns the generalist into specialist models, allowing them to achieve further performance boosts. Notably, our foundation models consistently deliver state-of-the-art results on seven benchmarks such as AGORA, UBody, EgoBody, and our proposed SynHand dataset for comprehensive hand evaluation. (Code is available at: https://github.com/wqyin/SMPLest-X).

SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理