SOMA: Unifying Parametric Human Body Models

📄 arXiv: 2603.16858v1 📥 PDF

作者: Jun Saito, Jiefeng Li, Michael de Ruyter, Miguel Guerrero, Edy Lim, Ehsan Hassani, Roger Blanco Ribera, Hyejin Moon, Magdalena Dadela, Marco Di Lucca, Qiao Wang, Xueting Li, Jan Kautz, Simon Yuen, Umar Iqbal

分类: cs.CV, cs.AI

发布日期: 2026-03-17


💡 一句话要点

SOMA:统一参数化人体模型,实现跨模型数据融合与应用

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 参数化人体模型 人体重建 动画 姿势迁移 数据融合 统一表示 GPU加速

📋 核心要点

  1. 现有参数化人体模型互不兼容,限制了其在统一流程中的应用和优势互补。
  2. SOMA通过网格、骨骼和姿势三个抽象层,实现了对不同人体模型的统一表示。
  3. SOMA无需迭代优化或模型训练,即可实现高效的跨模型数据融合和姿势迁移。

📝 摘要(中文)

参数化人体模型是人体重建、动画和模拟的基础,但现有模型(如SMPL、SMPL-X、MHR、Anny等)在网格拓扑、骨骼结构、形状参数化和单位约定上互不兼容,难以在单个流程中利用它们的互补优势。本文提出了SOMA,一个统一的身体层,通过三个抽象层桥接这些异构表示。网格拓扑抽象以每个顶点恒定的时间将任何源模型的身份映射到共享的规范网格。骨骼抽象从任何体型(无论是静止姿势还是任意姿势配置)中,通过单个闭式传递恢复一整套身份自适应的关节变换,无需迭代优化或每个模型的训练。姿势抽象反转了蒙皮流程,直接从任何支持模型的姿势顶点恢复统一的骨骼旋转,从而无需自定义重定向即可使用异构运动数据集。这些层将O(M^2)的每对适配器问题简化为O(M)的单后端连接器,使从业者可以在推理时自由混合身份源和姿势数据。整个流程是完全可微的端到端,并通过NVIDIA-Warp进行GPU加速。

🔬 方法详解

问题定义:现有参数化人体模型,如SMPL、SMPL-X、MHR等,在网格拓扑、骨骼结构、形状参数化等方面存在差异,导致难以在统一的流程中利用不同模型的优势,阻碍了人体重建、动画和模拟等应用的发展。现有方法需要针对每对模型进行适配,复杂度高,效率低。

核心思路:SOMA的核心思路是通过三个抽象层:网格拓扑抽象、骨骼抽象和姿势抽象,将不同的参数化人体模型映射到一个统一的表示空间。这样,就可以在统一的空间中进行数据融合、姿势迁移等操作,而无需针对每对模型进行单独适配。

技术框架:SOMA包含三个主要模块:1) 网格拓扑抽象:将不同模型的网格映射到共享的规范网格;2) 骨骼抽象:从任意体型中恢复身份自适应的关节变换;3) 姿势抽象:从姿势顶点恢复统一的骨骼旋转。整个流程是端到端可微的,并使用NVIDIA-Warp进行GPU加速。

关键创新:SOMA的关键创新在于提出了三个抽象层,实现了对不同参数化人体模型的统一表示。与现有方法相比,SOMA无需迭代优化或模型训练,即可实现高效的跨模型数据融合和姿势迁移。此外,SOMA将O(M^2)的每对适配器问题简化为O(M)的单后端连接器,大大降低了计算复杂度。

关键设计:SOMA使用闭式解来恢复关节变换,避免了迭代优化。网格拓扑抽象使用预先计算的映射关系,实现了快速的网格映射。姿势抽象通过反转蒙皮流程,直接从姿势顶点恢复骨骼旋转。整个流程使用NVIDIA-Warp进行GPU加速,提高了计算效率。具体参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SOMA通过三个抽象层实现了对不同参数化人体模型的统一表示,无需迭代优化或模型训练,即可实现高效的跨模型数据融合和姿势迁移。SOMA将O(M^2)的每对适配器问题简化为O(M)的单后端连接器,大大降低了计算复杂度。具体性能数据未知。

🎯 应用场景

SOMA可广泛应用于人体重建、动画、虚拟现实、游戏开发等领域。它能够实现不同人体模型的数据融合,提高人体建模的精度和效率。此外,SOMA还可以用于姿势迁移,将一个模型的姿势应用到另一个模型上,从而实现更加逼真的人体动画效果。SOMA的统一表示为未来的跨模型人体研究奠定了基础。

📄 摘要(原文)

Parametric human body models are foundational to human reconstruction, animation, and simulation, yet they remain mutually incompatible: SMPL, SMPL-X, MHR, Anny, and related models each diverge in mesh topology, skeletal structure, shape parameterization, and unit convention, making it impractical to exploit their complementary strengths within a single pipeline. We present SOMA, a unified body layer that bridges these heterogeneous representations through three abstraction layers. Mesh topology abstraction maps any source model's identity to a shared canonical mesh in constant time per vertex. Skeletal abstraction recovers a full set of identity-adapted joint transforms from any body shape, whether in rest pose or an arbitrary posed configuration, in a single closed-form pass, with no iterative optimization or per-model training. Pose abstraction inverts the skinning pipeline to recover unified skeleton rotations directly from posed vertices of any supported model, enabling heterogeneous motion datasets to be consumed without custom retargeting. Together, these layers reduce the $O(M^2)$ per-pair adapter problem to $O(M)$ single-backend connectors, letting practitioners freely mix identity sources and pose data at inference time. The entire pipeline is fully differentiable end-to-end and GPU-accelerated via NVIDIA-Warp.