HumanNOVA: Photorealistic, Universal and Rapid 3D Human Avatar Modeling from a Single Image
作者: Hezhen Hu, Wangbo Zhao, Lanqing Guo, Hanwen Jiang, Jonathan C. Liu, Zhiwen Fan, Kai Wang, Zhangyang Wang, Georgios Pavlakos
分类: cs.CV
发布日期: 2026-06-01
备注: CVPR 2026 Highlight
💡 一句话要点
HumanNOVA:基于单张图像的逼真、通用、快速3D人体Avatar建模
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D人体建模 单张图像重建 Avatar生成 大规模数据 神经渲染
📋 核心要点
- 现有3D人体建模方法难以兼顾逼真度和泛化性,主要瓶颈在于高质量、多样化3D人体数据的匮乏。
- HumanNOVA通过大规模数据生成流水线,利用绑定资产动画和多视角拟合,显著提升了训练数据的数量和多样性。
- HumanNOVA采用前馈token条件框架,实现了快速推理,无需测试时优化,并在多个基准测试中表现出优越的性能。
📝 摘要(中文)
本文提出了HumanNOVA,一个逼真、通用且快速的模型,用于从单张RGB图像生成3D人体Avatar。由于缺乏多样化、高质量的3D人体数据,实现逼真度和泛化性极具挑战。为了解决这个问题,我们构建了一个可扩展的数据生成流程,该流程遵循两个策略。首先,利用现有的绑定资产,并通过来自日常生活的广泛姿势对其进行动画处理。其次,利用现有多相机捕获的人体数据,并采用拟合来生成更多样化的视图以进行训练。这两种策略使我们能够扩展到10万个资产,从而显著提高数据量和多样性,以实现稳健的模型训练。在架构方面,HumanNOVA采用前馈、token条件Avatar建模框架,该框架允许在不到一秒的时间内进行快速推理,并且不需要测试时优化。给定输入图像和一个估计的简化人体网格(SMPL),没有详细的几何形状或外观,该模型首先将两个输入编码为紧凑的token表示。然后,这些token充当条件信号,并通过交叉注意力融合以构建基于三平面的3D Avatar表示。在多个基准上的大量实验表明,我们的方法在定量和定性方面都具有优越性,并且在各种输入图像条件下都具有鲁棒性。
🔬 方法详解
问题定义:现有方法在单张图像3D人体建模中,难以同时保证生成结果的真实感和对各种人体姿态、体型的泛化能力。主要原因是缺乏足够数量和足够多样性的高质量3D人体训练数据,导致模型容易过拟合特定数据,难以适应真实世界的复杂场景。
核心思路:HumanNOVA的核心思路是通过大规模数据生成来解决数据匮乏的问题。具体来说,论文利用现有的绑定人体模型资源,通过动画生成大量不同姿态的数据;同时,利用多视角图像重建技术,从真实人体图像中生成更多样化的训练数据。通过这种方式,显著扩充了训练数据集,提升了模型的泛化能力。
技术框架:HumanNOVA的整体框架包含以下几个主要阶段:1) 数据生成阶段:利用绑定模型动画和多视角图像重建生成大规模训练数据。2) 特征编码阶段:将输入图像和SMPL人体模型编码为紧凑的token表示。3) Avatar构建阶段:利用交叉注意力机制融合图像和SMPL特征,构建基于三平面的3D Avatar表示。4) 渲染阶段:将3D Avatar渲染成最终的图像。
关键创新:HumanNOVA的关键创新在于其大规模数据生成流水线和前馈token条件Avatar建模框架。大规模数据生成保证了模型的泛化能力,前馈token条件框架实现了快速推理,无需测试时优化。此外,使用三平面表示3D Avatar也提高了渲染效率和质量。
关键设计:在数据生成方面,论文设计了两种数据生成策略:基于绑定模型动画和基于多视角图像重建。在网络结构方面,论文采用了Transformer架构,利用交叉注意力机制融合图像和SMPL特征。损失函数方面,论文使用了多种损失函数,包括图像重建损失、对抗损失等,以保证生成结果的真实感。
🖼️ 关键图片
📊 实验亮点
HumanNOVA在多个基准测试中取得了优异的性能。实验结果表明,该方法在生成Avatar的逼真度和泛化能力方面均优于现有方法。具体来说,在定量指标上,HumanNOVA在图像重建质量、姿态估计精度等方面均取得了显著提升。在定性结果上,HumanNOVA能够生成更加逼真、细节更加丰富的3D Avatar,并且能够适应各种复杂的人体姿态和体型。
🎯 应用场景
HumanNOVA在虚拟现实、增强现实、游戏、社交媒体等领域具有广泛的应用前景。它可以用于创建个性化的3D Avatar,用于虚拟形象展示、在线会议、虚拟试衣等。该技术还可以用于人体姿态估计、动作捕捉等任务,为相关领域的研究提供支持。未来,该技术有望应用于更广泛的人机交互场景。
📄 摘要(原文)
In this paper, we present HumanNOVA, a photorealistic, universal, and rapid model for generating 3D human avatars from a single RGB image. Achieving both photorealism and generalization is challenging due to the scarcity of diverse, high-quality 3D human data. To address this, we build a scalable data generation pipeline that follows two strategies. The first one is to leverage existing rigged assets and animate them with extensive poses from daily life. The second strategy is to utilize existing multi-camera captures of humans and employ fitting to generate more diverse views for training. These two strategies enable us to scale up to 100k assets, significantly enhancing both the quantity and the diversity of data for robust model training. In terms of the architecture, HumanNOVA adopts a feed-forward, token-conditioned avatar modeling framework that allows fast inference in less than one second and requires no test-time optimization. Given an input image and an estimated simplified human mesh (SMPL) without detailed geometry or appearance, the model first encodes both inputs into compact token representations. These tokens then act as conditioning signals and are fused through cross-attention to construct a triplane-based 3D avatar representation. Extensive experiments on multiple benchmarks demonstrate the superiority of our approach, both quantitatively and qualitatively, as well as its robustness under diverse input image conditions. Project page at https://HumanNOVA.github.io .