Better Rigs, Not Bigger Networks: A Body Model Ablation for Gaussian Avatars
作者: Derek Austin
分类: cs.CV, cs.AI
发布日期: 2026-04-06
💡 一句话要点
使用更优人体模型,而非更大网络,提升高斯Avatar重建效果
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D高斯Splatting 人体模型 Avatar重建 姿态估计 SMPL MHR SAM-3D-Body
📋 核心要点
- 现有3D高斯Avatar方法过度依赖复杂网络,忽略了人体模型本身表达能力的限制。
- 本文提出使用Momentum Human Rig (MHR)替换SMPL,简化pipeline并提升重建质量。
- 实验表明,MHR的表达能力是性能瓶颈,姿态估计质量和模型表达能力均有贡献。
📝 摘要(中文)
现有的基于SMPL的3D高斯splatting方法在实现卓越视觉保真度的同时,不断增加整体训练架构的复杂性。本文证明了这种复杂性在很大程度上是不必要的:通过使用由SAM-3D-Body估计的Momentum Human Rig (MHR)替换SMPL,一个没有学习形变或姿势相关校正的极简pipeline在PeopleSnapshot和ZJU-MoCap数据集上实现了最高的PSNR,以及具有竞争力的或更优越的LPIPS和SSIM。为了将姿势估计质量与人体模型表征能力解耦,我们进行了两次受控消融实验:将SAM-3D-Body网格转换为SMPL-X,以及将原始数据集的SMPL姿势转换为MHR,两者都在相同的条件下重新训练。这些消融实验证实,人体模型表达能力一直是avatar重建的主要瓶颈,网格表征能力和姿势估计质量都对整个pipeline的增益做出了有意义的贡献。
🔬 方法详解
问题定义:现有基于SMPL的3D高斯Avatar重建方法,为了提升重建质量,不断增加网络复杂度,但忽略了SMPL模型本身的表达能力限制,导致性能提升受限。这些方法通常需要学习形变或姿势相关的校正,增加了训练难度和计算成本。
核心思路:本文的核心思路是,通过使用更具表达能力的人体模型(Momentum Human Rig, MHR)来替代SMPL,从而在不增加网络复杂度的前提下,提升Avatar重建的质量。MHR能够更准确地捕捉人体姿态和形状的变化,减少了对网络学习形变和校正的需求。
技术框架:整体pipeline包括:1) 使用SAM-3D-Body估计MHR参数;2) 使用估计的MHR参数初始化3D高斯splatting;3) 使用渲染损失优化高斯参数。该pipeline的关键在于使用MHR作为人体模型的先验,避免了复杂的形变学习模块。
关键创新:最重要的创新点在于,证明了人体模型表达能力是Avatar重建的关键瓶颈,并提出了使用MHR替代SMPL的解决方案。与现有方法相比,该方法在简化pipeline的同时,实现了更高的重建质量。
关键设计:本文的关键设计包括:1) 使用SAM-3D-Body进行姿态估计,提供高质量的MHR参数;2) 使用标准的3D高斯splatting渲染框架,并使用渲染损失进行优化;3) 通过消融实验,验证了MHR的表达能力和姿态估计质量对重建性能的贡献。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用MHR替代SMPL后,在PeopleSnapshot和ZJU-MoCap数据集上,PSNR指标达到了最高水平,LPIPS和SSIM指标也达到了具有竞争力的或更优越的水平。消融实验进一步验证了人体模型表达能力和姿态估计质量对重建性能的贡献,证明了MHR是Avatar重建的关键因素。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏、动画制作等领域,实现更高质量、更逼真的人体Avatar重建。通过简化pipeline,降低了Avatar重建的计算成本,使其更容易部署到移动设备等资源受限的平台上。未来,可以进一步研究如何将该方法应用于动态场景和复杂服装的Avatar重建。
📄 摘要(原文)
Recent 3D Gaussian splatting methods built atop SMPL achieve remarkable visual fidelity while continually increasing the complexity of the overall training architecture. We demonstrate that much of this complexity is unnecessary: by replacing SMPL with the Momentum Human Rig (MHR), estimated via SAM-3D-Body, a minimal pipeline with no learned deformations or pose-dependent corrections achieves the highest reported PSNR and competitive or superior LPIPS and SSIM on PeopleSnapshot and ZJU-MoCap. To disentangle pose estimation quality from body model representational capacity, we perform two controlled ablations: translating SAM-3D-Body meshes to SMPL-X, and translating the original dataset's SMPL poses into MHR both retrained under identical conditions. These ablations confirm that body model expressiveness has been a primary bottleneck in avatar reconstruction, with both mesh representational capacity and pose estimation quality contributing meaningfully to the full pipeline's gains.