GaussianIP: Identity-Preserving Realistic 3D Human Generation via Human-Centric Diffusion Prior
作者: Zichen Tang, Yuan Yao, Miaomiao Cui, Liefeng Bo, Hongyu Yang
分类: cs.CV
发布日期: 2025-03-14
备注: Accepted by CVPR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
GaussianIP:通过以人为中心的扩散先验实现保持身份的逼真3D人体生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 3D人体生成 文本引导生成 扩散模型 身份保持 视图一致性
📋 核心要点
- 现有文本引导的3D人体生成方法训练时间长,且生成的面部和服装细节不足。
- GaussianIP利用以人为中心的知识,通过自适应人体蒸馏采样(AHDS)和视图一致性细化(VCR)策略,提升生成质量和效率。
- 实验表明,GaussianIP在视觉质量和训练效率上优于现有方法,尤其在保持身份一致性方面表现突出。
📝 摘要(中文)
本文提出GaussianIP,一个有效的两阶段框架,用于从文本和图像提示生成保持身份的逼真3D人体。核心思想是利用以人为中心的知识来促进生成过程。在第一阶段,提出了一种新的自适应人体蒸馏采样(AHDS)方法,以快速生成一个与图像提示保持高度身份一致性并实现逼真外观的3D人体。与传统的SDS方法相比,AHDS更好地与以人为中心的生成过程对齐,从而以明显更少的训练步骤增强视觉质量。为了进一步提高面部和服装区域的视觉质量,在第二阶段设计了一种视图一致性细化(VCR)策略。具体来说,它迭代地生成来自第一阶段的多视图图像的细节增强结果,通过互注意力和距离引导的注意力融合确保跨视图的3D纹理一致性。然后,可以通过直接使用细化图像执行重建来获得抛光版本的3D人体。大量实验表明,GaussianIP在视觉质量和训练效率方面均优于现有方法,尤其是在生成保持身份的结果方面。
🔬 方法详解
问题定义:现有文本引导的3D人体生成方法,特别是基于Score Distillation Sampling (SDS)的方法,存在训练时间过长,以及生成结果缺乏精细的面部和服装细节的问题。这些方法难以在保持身份一致性的同时,生成逼真的人体模型。
核心思路:GaussianIP的核心思路是利用“以人为中心”的先验知识来指导3D人体的生成过程。具体来说,通过设计自适应的人体蒸馏采样(AHDS)方法,加速生成过程并提高初始3D人体的质量。然后,通过视图一致性细化(VCR)策略,进一步提升面部和服装等关键区域的细节,并确保多视角下纹理的一致性。
技术框架:GaussianIP是一个两阶段的框架。第一阶段是使用AHDS快速生成一个具有较高身份一致性和逼真外观的3D人体。第二阶段是使用VCR策略,迭代地细化多视角图像,增强面部和服装区域的细节,并通过互注意力机制和距离引导的注意力融合来保证3D纹理在不同视角下的一致性。最后,使用细化后的图像进行3D重建,得到最终的3D人体模型。
关键创新:GaussianIP的关键创新在于AHDS和VCR策略。AHDS通过更符合人类生成过程的方式进行采样,从而在更少的训练步骤下获得更好的视觉质量。VCR则通过多视角一致性约束,有效地提升了面部和服装等关键区域的细节,并保证了3D纹理的一致性。
关键设计:AHDS的关键设计在于自适应性,使其能够更好地适应人体生成过程的特点。VCR的关键设计在于互注意力机制和距离引导的注意力融合,前者用于捕捉不同视角之间的关系,后者用于根据视角距离调整注意力权重,从而保证3D纹理的一致性。
🖼️ 关键图片
📊 实验亮点
GaussianIP在生成保持身份的3D人体方面表现出色,视觉质量和训练效率均优于现有方法。与传统SDS方法相比,AHDS能够以更少的训练步骤获得更好的视觉效果。VCR策略有效地提升了面部和服装等关键区域的细节,并保证了3D纹理的一致性。代码已开源。
🎯 应用场景
GaussianIP在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身,定制服装,以及生成各种风格和姿势的3D人体模型。该技术还可以应用于电商领域,实现虚拟试穿等功能,提升用户体验。
📄 摘要(原文)
Text-guided 3D human generation has advanced with the development of efficient 3D representations and 2D-lifting methods like Score Distillation Sampling (SDS). However, current methods suffer from prolonged training times and often produce results that lack fine facial and garment details. In this paper, we propose GaussianIP, an effective two-stage framework for generating identity-preserving realistic 3D humans from text and image prompts. Our core insight is to leverage human-centric knowledge to facilitate the generation process. In stage 1, we propose a novel Adaptive Human Distillation Sampling (AHDS) method to rapidly generate a 3D human that maintains high identity consistency with the image prompt and achieves a realistic appearance. Compared to traditional SDS methods, AHDS better aligns with the human-centric generation process, enhancing visual quality with notably fewer training steps. To further improve the visual quality of the face and clothes regions, we design a View-Consistent Refinement (VCR) strategy in stage 2. Specifically, it produces detail-enhanced results of the multi-view images from stage 1 iteratively, ensuring the 3D texture consistency across views via mutual attention and distance-guided attention fusion. Then a polished version of the 3D human can be achieved by directly perform reconstruction with the refined images. Extensive experiments demonstrate that GaussianIP outperforms existing methods in both visual quality and training efficiency, particularly in generating identity-preserving results. Our code is available at: https://github.com/silence-tang/GaussianIP.