Parametric Gaussian Human Model: Generalizable Prior for Efficient and Realistic Human Avatar Modeling

作者: Cheng Peng, Jingxiang Sun, Yushuo Chen, Zhaoqi Su, Zhuo Su, Yebin Liu

分类: cs.CV

发布日期: 2025-06-07

备注: Project Page: https://pengc02.github.io/pghm/

💡 一句话要点

提出参数化高斯人体模型，实现高效逼真的人体Avatar建模

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 人体Avatar 3D高斯溅射 单目重建 参数化模型 深度学习

📋 核心要点

现有3D高斯溅射方法在单目视频重建人体Avatar时，存在逐对象优化耗时和稀疏输入泛化性差的问题。
论文提出参数化高斯人体模型(PGHM)，通过UV对齐的潜在身份图和解耦的多头U-Net，将人体先验知识融入3DGS。
实验表明，PGHM仅需约20分钟即可为每个对象生成具有可比视觉质量的Avatar，效率显著高于从头开始优化的方法。

📝 摘要（中文）

逼真且可动画的人体Avatar是虚拟/增强现实、远程呈现和数字娱乐的关键。尽管3D高斯溅射(3DGS)的最新进展极大地提高了渲染质量和效率，但现有方法仍然面临根本性挑战，包括耗时的单对象优化和稀疏单目输入下的泛化能力差。本文提出了参数化高斯人体模型(PGHM)，这是一个通用且高效的框架，它将人体先验知识集成到3DGS中，从而可以从单目视频中快速、高保真地重建Avatar。PGHM引入了两个核心组件：(1) UV对齐的潜在身份图，它将特定对象的几何形状和外观紧凑地编码为可学习的特征张量；(2) 一个解耦的多头U-Net，它通过条件解码器分解静态、姿势相关和视角相关的组件来预测高斯属性。这种设计能够在具有挑战性的姿势和视角下实现鲁棒的渲染质量，同时允许高效的对象自适应，而无需多视角捕获或长时间优化。实验表明，PGHM比从头开始优化的方法效率更高，每个对象只需大约20分钟即可生成具有可比视觉质量的Avatar，从而证明了其在现实世界单目Avatar创建中的实际适用性。

🔬 方法详解

问题定义：现有基于3D高斯溅射的人体Avatar重建方法，需要针对每个对象进行单独优化，耗时较长。同时，在单目视频输入稀疏的情况下，重建效果不佳，泛化能力弱。因此，需要一种能够快速、高效且具有良好泛化能力的人体Avatar重建方法。

核心思路：论文的核心思路是将人体先验知识融入到3D高斯溅射框架中，从而减少对每个对象单独优化的需求，并提高在稀疏输入下的泛化能力。具体来说，通过学习一个参数化的高斯人体模型，该模型能够根据输入的单目视频，预测出人体Avatar的几何形状和外观。

技术框架：PGHM框架主要包含两个核心模块：UV对齐的潜在身份图和解耦的多头U-Net。首先，使用UV对齐的潜在身份图来编码特定对象的几何形状和外观信息。然后，使用解耦的多头U-Net来预测高斯属性，该U-Net通过条件解码器将高斯属性分解为静态、姿势相关和视角相关的组件。最后，使用3D高斯溅射进行渲染，得到最终的人体Avatar。

关键创新：论文的关键创新在于提出了参数化高斯人体模型，该模型能够将人体先验知识融入到3D高斯溅射框架中。与现有方法相比，PGHM无需针对每个对象进行单独优化，并且在稀疏输入下具有更好的泛化能力。此外，解耦的多头U-Net能够更好地建模高斯属性的各个组成部分，从而提高渲染质量。

关键设计：UV对齐的潜在身份图是一个可学习的特征张量，用于编码特定对象的几何形状和外观信息。解耦的多头U-Net包含多个解码器，分别用于预测静态、姿势相关和视角相关的高斯属性。损失函数包括渲染损失、正则化损失等，用于优化模型的参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PGHM在单目视频人体Avatar重建任务中取得了显著的性能提升。与从头开始优化的方法相比，PGHM仅需约20分钟即可为每个对象生成具有可比视觉质量的Avatar，效率提高了数倍。此外，PGHM在具有挑战性的姿势和视角下也表现出良好的鲁棒性。

🎯 应用场景

该研究成果可广泛应用于虚拟/增强现实、远程呈现、数字娱乐等领域。例如，用户可以使用单目摄像头快速创建自己的虚拟Avatar，并在虚拟世界中进行交互。此外，该技术还可以用于创建逼真的数字替身，用于电影、游戏等娱乐产业。

📄 摘要（原文）

Photorealistic and animatable human avatars are a key enabler for virtual/augmented reality, telepresence, and digital entertainment. While recent advances in 3D Gaussian Splatting (3DGS) have greatly improved rendering quality and efficiency, existing methods still face fundamental challenges, including time-consuming per-subject optimization and poor generalization under sparse monocular inputs. In this work, we present the Parametric Gaussian Human Model (PGHM), a generalizable and efficient framework that integrates human priors into 3DGS for fast and high-fidelity avatar reconstruction from monocular videos. PGHM introduces two core components: (1) a UV-aligned latent identity map that compactly encodes subject-specific geometry and appearance into a learnable feature tensor; and (2) a disentangled Multi-Head U-Net that predicts Gaussian attributes by decomposing static, pose-dependent, and view-dependent components via conditioned decoders. This design enables robust rendering quality under challenging poses and viewpoints, while allowing efficient subject adaptation without requiring multi-view capture or long optimization time. Experiments show that PGHM is significantly more efficient than optimization-from-scratch methods, requiring only approximately 20 minutes per subject to produce avatars with comparable visual quality, thereby demonstrating its practical applicability for real-world monocular avatar creation.

Parametric Gaussian Human Model: Generalizable Prior for Efficient and Realistic Human Avatar Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理