Generative Modeling of Shape-Dependent Self-Contact Human Poses
作者: Takehiko Ohkawa, Jihyun Lee, Shunsuke Saito, Jason Saragih, Fabian Prado, Yichen Xu, Shoou-I Yu, Ryosuke Furuta, Yoichi Sato, Takaaki Shiratori
分类: cs.CV
发布日期: 2025-09-27
备注: Accepted to ICCV 2025. Project page: https://tkhkaeio.github.io/projects/25-scgen
💡 一句话要点
提出基于形状感知的自接触人体姿态生成模型,提升单视角姿态估计精度
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 人体姿态估计 自接触建模 生成模型 扩散模型 身体形状 单视角 数据集 自注意力
📋 核心要点
- 现有自接触数据集缺乏多样性和精确的身体形状信息,限制了自接触姿态与形状之间关系的深入分析。
- 提出一种基于身体部位的潜在扩散模型,并结合自注意力机制,生成与身体形状相关的自接触姿态先验。
- 将该先验融入单视角人体姿态估计,通过优化姿态的自接触合理性,提升了估计精度。
📝 摘要(中文)
本文针对人体姿态自接触建模问题,指出现有方法缺乏对身体形状的考虑。为此,作者构建了首个大规模自接触数据集Goliath-SC,包含130个受试者的383K自接触姿态,并进行了精确的身体形状注册。基于此数据集,作者提出了一种基于身体部位的潜在扩散模型,并结合自注意力机制,实现了由身体形状参数调节的自接触先验生成模型。该先验被进一步应用于单视角人体姿态估计中,用于优化估计姿态的自接触合理性。实验结果表明,形状调节对于成功建模自接触姿态分布至关重要,从而提高了自接触场景下的单视角姿态估计性能。
🔬 方法详解
问题定义:现有的人体姿态自接触建模方法通常忽略了人体形状的影响,导致生成的姿态可能不符合实际情况,例如,对于BMI较高的人,手部触摸腹部的姿势可能导致穿透。因此,如何建立一个能够感知人体形状的自接触姿态生成模型是一个关键问题。
核心思路:论文的核心思路是利用一个生成模型来学习自接触姿态的分布,并且这个生成模型能够根据人体形状参数进行调节。这样,生成的姿态就能更好地反映不同体型的人的自接触行为。作者认为,身体形状是影响自接触姿态的关键因素,因此需要将其纳入模型中。
技术框架:论文提出的方法主要包含两个阶段:首先,构建一个大规模的自接触数据集Goliath-SC,该数据集包含精确的身体形状信息。然后,基于该数据集训练一个生成模型,该模型采用身体部位的潜在扩散模型,并结合自注意力机制。该模型以身体形状参数作为输入,生成自接触姿态的先验分布。最后,将该先验分布应用于单视角人体姿态估计中,通过优化估计姿态的自接触合理性来提高估计精度。
关键创新:该论文的关键创新在于提出了一个形状感知的自接触姿态生成模型。与现有方法相比,该模型能够根据人体形状参数生成更加真实和合理的自接触姿态。此外,Goliath-SC数据集的构建也为自接触姿态建模提供了宝贵的数据资源。
关键设计:在生成模型中,作者采用了身体部位的潜在扩散模型,这意味着模型分别对每个身体部位的姿态进行建模,然后将这些部位的姿态组合起来形成完整的姿态。自注意力机制用于捕捉不同身体部位之间的依赖关系。损失函数的设计旨在鼓励生成的姿态与真实姿态相似,并且符合自接触的物理约束。具体的参数设置和网络结构细节在论文中有详细描述,但此处无法完全复述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,形状调节对于成功建模自接触姿态分布至关重要。通过将形状感知的自接触先验融入单视角人体姿态估计中,该方法在自接触场景下的姿态估计精度得到了显著提升。具体的性能数据和对比基线在论文中有详细展示,证明了该方法的有效性。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏、动画制作等领域,提升虚拟角色的真实感和交互性。例如,可以生成更逼真的人物动作,或者在虚拟试衣应用中,根据用户的体型生成合适的服装效果。此外,该技术还可以用于康复训练,帮助患者进行安全的自接触动作练习。
📄 摘要(原文)
One can hardly model self-contact of human poses without considering underlying body shapes. For example, the pose of rubbing a belly for a person with a low BMI leads to penetration of the hand into the belly for a person with a high BMI. Despite its relevance, existing self-contact datasets lack the variety of self-contact poses and precise body shapes, limiting conclusive analysis between self-contact poses and shapes. To address this, we begin by introducing the first extensive self-contact dataset with precise body shape registration, Goliath-SC, consisting of 383K self-contact poses across 130 subjects. Using this dataset, we propose generative modeling of self-contact prior conditioned by body shape parameters, based on a body-part-wise latent diffusion with self-attention. We further incorporate this prior into single-view human pose estimation while refining estimated poses to be in contact. Our experiments suggest that shape conditioning is vital to the successful modeling of self-contact pose distribution, hence improving single-view pose estimation in self-contact.