Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

📄 arXiv: 2312.06655v1 📥 PDF

作者: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan

分类: cs.CV, cs.GR, cs.LG

发布日期: 2023-12-11

备注: Project page: https://liuff19.github.io/Sherpa3D/


💡 一句话要点

Sherpa3D:利用粗糙3D先验提升高保真文本到3D生成效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 文本到3D生成 3D扩散模型 2D扩散模型 粗糙3D先验 几何一致性

📋 核心要点

  1. 现有文本到3D方法依赖2D或3D扩散模型,但前者易出现视角不一致问题,后者受限于3D数据质量。
  2. Sherpa3D利用3D扩散模型提供的粗糙3D先验,通过结构和语义指导,优化2D扩散模型的提升过程。
  3. 实验结果表明,Sherpa3D在生成质量和3D一致性上均优于现有文本到3D生成方法。

📝 摘要(中文)

本文提出Sherpa3D,一个新型文本到3D框架,旨在同时实现高保真度、泛化性和几何一致性。现有方法利用2D和3D扩散模型从文本提示生成3D内容,但3D扩散模型受限于3D数据,难以生成高质量和多样化的3D资产。2D扩散模型虽然泛化性好且细节丰富,但其2D提升方法存在视角无关的模糊性,导致严重的多面Janus问题,文本提示无法充分指导学习连贯的3D结果。Sherpa3D没有重新训练昂贵的视角感知模型,而是充分利用易于获得的粗糙3D知识来增强提示,并指导2D提升优化进行细化。具体来说,本文设计了一对指导策略,源于3D扩散模型生成的粗糙3D先验:用于几何保真度的结构指导和用于3D连贯性的语义指导。通过这两种指导,2D扩散模型能够丰富3D内容,生成多样化和高质量的结果。大量实验表明,Sherpa3D在质量和3D一致性方面优于最先进的文本到3D方法。

🔬 方法详解

问题定义:现有文本到3D生成方法主要面临两个问题:一是基于2D扩散模型的提升方法,由于缺乏3D感知,容易产生视角不一致性,导致多面Janus问题;二是基于3D扩散模型的方法,受限于3D数据的匮乏,难以生成高质量和多样化的3D资产。这些问题限制了文本到3D生成技术的实际应用。

核心思路:Sherpa3D的核心思路是利用易于获得的粗糙3D先验知识,来指导2D扩散模型的提升过程,从而克服视角不一致性问题,并提升生成质量。具体来说,利用3D扩散模型生成粗糙的3D形状,然后从中提取结构和语义信息,作为指导信号来优化2D扩散模型的生成结果。这样既能利用2D扩散模型的强大生成能力,又能保证3D一致性。

技术框架:Sherpa3D框架主要包含以下几个阶段:1) 使用3D扩散模型生成粗糙的3D形状;2) 从粗糙3D形状中提取结构和语义信息,分别作为结构指导和语义指导;3) 使用2D扩散模型生成多视角图像;4) 利用结构指导和语义指导,优化2D扩散模型的生成结果,使其与粗糙3D形状保持一致;5) 将多视角图像提升为最终的3D模型。

关键创新:Sherpa3D的关键创新在于提出了利用粗糙3D先验来指导2D提升过程的策略。与直接使用2D扩散模型或3D扩散模型不同,Sherpa3D结合了两者的优点,既能利用2D扩散模型的强大生成能力,又能保证3D一致性。此外,结构指导和语义指导的设计,能够更有效地利用粗糙3D先验知识。

关键设计:结构指导通过最小化2D图像与粗糙3D形状的深度差异来实现,鼓励生成的2D图像在几何结构上与3D先验一致。语义指导则通过对比学习,使生成的2D图像在语义上与3D先验保持一致。损失函数包括深度一致性损失和语义一致性损失。具体参数设置未知。

📊 实验亮点

实验结果表明,Sherpa3D在生成质量和3D一致性方面显著优于现有方法。与现有最佳方法相比,Sherpa3D在用户偏好度调查中获得了更高的评分,表明用户更喜欢Sherpa3D生成的3D模型。具体的性能数据和提升幅度未知。

🎯 应用场景

Sherpa3D在游戏开发、虚拟现实、增强现实、电影制作等领域具有广泛的应用前景。它可以根据文本描述快速生成高质量的3D模型,降低3D内容创作的门槛,提高创作效率。未来,该技术有望应用于个性化定制、产品设计等领域,实现更智能化的3D内容生成。

📄 摘要(原文)

Recently, 3D content creation from text prompts has demonstrated remarkable progress by utilizing 2D and 3D diffusion models. While 3D diffusion models ensure great multi-view consistency, their ability to generate high-quality and diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion models find a distillation approach that achieves excellent generalization and rich details without any 3D data. However, 2D lifting methods suffer from inherent view-agnostic ambiguity thereby leading to serious multi-face Janus issues, where text prompts fail to provide sufficient guidance to learn coherent 3D results. Instead of retraining a costly viewpoint-aware model, we study how to fully exploit easily accessible coarse 3D knowledge to enhance the prompts and guide 2D lifting optimization for refinement. In this paper, we propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity, generalizability, and geometric consistency simultaneously. Specifically, we design a pair of guiding strategies derived from the coarse 3D prior generated by the 3D diffusion model: a structural guidance for geometric fidelity and a semantic guidance for 3D coherence. Employing the two types of guidance, the 2D diffusion model enriches the 3D content with diversified and high-quality results. Extensive experiments show the superiority of our Sherpa3D over the state-of-the-art text-to-3D methods in terms of quality and 3D consistency.