Identity Preserving 3D Head Stylization with Multiview Score Distillation

📄 arXiv: 2411.13536v3 📥 PDF

作者: Bahri Batuhan Bilecen, Ahmet Berke Gokmen, Furkan Guzelant, Aysegul Dundar

分类: cs.CV, cs.AI, cs.GR, cs.LG, cs.MM

发布日期: 2024-11-20 (更新: 2025-08-20)

备注: https://three-bee.github.io/head_stylization

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于多视角Score Distillation的3D头部风格化方法,提升身份保持能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 3D头部风格化 多视角学习 Score Distillation GAN 扩散模型 身份保持 负对数似然

📋 核心要点

  1. 现有3D头部风格化方法难以在风格化过程中保持原始人物的身份特征,且视角单一。
  2. 提出一种基于多视角Score Distillation的框架,利用负对数似然蒸馏增强身份保持能力和风格化质量。
  3. 通过多视角网格分数、镜像梯度和分数排序加权等技术,在定性和定量上均取得了显著提升。

📝 摘要(中文)

3D头部风格化将逼真面部特征转换为艺术化表达,增强了游戏和虚拟现实应用中的用户参与度。虽然3D感知生成器取得了显著进展,但许多3D风格化方法主要提供近正面视角,并且难以保持原始对象的独特身份,经常导致输出缺乏多样性和个性。本文利用PanoHead模型,从全面的360度视角合成图像,解决了这些挑战。我们提出了一种新颖的框架,该框架采用负对数似然蒸馏(LD)来增强身份保持并提高风格化质量。通过在3D GAN架构中集成多视角网格分数和镜像梯度,并引入分数排序加权技术,我们的方法实现了显著的定性和定量改进。我们的发现不仅推进了3D头部风格化的发展,还为扩散模型和GAN之间有效的蒸馏过程提供了有价值的见解,重点关注身份保持的关键问题。

🔬 方法详解

问题定义:现有3D头部风格化方法主要面临两个挑战:一是视角局限性,通常只提供近正面视角;二是身份保持问题,风格化后的头部往往失去了原始人物的独特身份特征,导致生成结果缺乏个性化和多样性。这些问题限制了3D头部风格化在游戏、VR等领域的应用。

核心思路:本文的核心思路是利用Score Distillation,将预训练的扩散模型中的知识迁移到3D GAN中,从而提高生成图像的质量和身份保持能力。具体来说,通过最小化负对数似然损失,使得GAN生成的图像的梯度与扩散模型预测的梯度对齐,从而引导GAN生成更符合扩散模型先验的图像。同时,利用多视角信息和特定的损失函数设计,进一步增强身份保持能力。

技术框架:该方法基于PanoHead模型,该模型能够从360度视角合成图像。整体框架包含以下几个主要模块:1) 3D GAN生成器:负责生成3D头部模型和对应的多视角图像;2) 预训练扩散模型:提供图像的先验知识和梯度信息;3) Score Distillation模块:计算GAN生成图像和扩散模型之间的梯度差异,并用于更新GAN的参数;4) 多视角一致性模块:保证不同视角下生成图像的一致性。

关键创新:本文最重要的技术创新点在于将Score Distillation应用于3D头部风格化,并针对身份保持问题进行了优化。具体来说,引入了多视角网格分数和镜像梯度,以及分数排序加权技术,从而更有效地利用扩散模型的知识,并提高身份保持能力。此外,该方法还探索了扩散模型和GAN之间有效的蒸馏过程,为相关研究提供了有价值的见解。

关键设计:在损失函数设计方面,除了标准的对抗损失和感知损失外,还引入了负对数似然损失(LD)来衡量GAN生成图像和扩散模型之间的差异。此外,为了增强身份保持能力,还设计了多视角一致性损失和身份损失。在网络结构方面,采用了PanoHead模型作为3D GAN生成器,该模型能够生成高质量的360度全景头部图像。分数排序加权技术则是根据不同分数的可靠性,对梯度进行加权,从而更有效地利用扩散模型的知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在3D头部风格化任务中取得了显著的性能提升。与现有方法相比,该方法生成的头部图像在身份保持方面表现更佳,风格化效果也更加自然。定量指标方面,该方法在身份相似度指标上取得了显著提升,证明了其在身份保持方面的优势。同时,用户研究也表明,用户更倾向于选择该方法生成的头部图像。

🎯 应用场景

该研究成果可广泛应用于游戏角色定制、虚拟现实化身生成、社交媒体头像制作等领域。通过该技术,用户可以轻松创建具有独特风格和身份特征的3D头部模型,提升用户在虚拟环境中的参与感和个性化体验。未来,该技术有望进一步拓展到其他3D内容生成领域,例如3D服装设计、3D场景建模等。

📄 摘要(原文)

3D head stylization transforms realistic facial features into artistic representations, enhancing user engagement across gaming and virtual reality applications. While 3D-aware generators have made significant advancements, many 3D stylization methods primarily provide near-frontal views and struggle to preserve the unique identities of original subjects, often resulting in outputs that lack diversity and individuality. This paper addresses these challenges by leveraging the PanoHead model, synthesizing images from a comprehensive 360-degree perspective. We propose a novel framework that employs negative log-likelihood distillation (LD) to enhance identity preservation and improve stylization quality. By integrating multi-view grid score and mirror gradients within the 3D GAN architecture and introducing a score rank weighing technique, our approach achieves substantial qualitative and quantitative improvements. Our findings not only advance the state of 3D head stylization but also provide valuable insights into effective distillation processes between diffusion models and GANs, focusing on the critical issue of identity preservation. Please visit the https://three-bee.github.io/head_stylization for more visuals.