Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

作者: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan

分类: cs.CV, cs.GR, cs.LG

发布日期: 2023-12-11

备注: Project page: https://liuff19.github.io/Sherpa3D/

💡 一句话要点

Sherpa3D：利用粗糙3D先验提升高保真文本到3D生成效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting)

关键词: 文本到3D生成 3D扩散模型 2D扩散模型 粗糙3D先验 几何一致性

📋 核心要点

现有文本到3D方法依赖2D或3D扩散模型，但前者易出现视角不一致问题，后者受限于3D数据质量。
Sherpa3D利用3D扩散模型提供的粗糙3D先验，通过结构和语义指导，优化2D扩散模型的提升过程。
实验结果表明，Sherpa3D在生成质量和3D一致性上均优于现有文本到3D生成方法。

📝 摘要（中文）

本文提出Sherpa3D，一个新型文本到3D框架，旨在同时实现高保真度、泛化性和几何一致性。现有方法利用2D和3D扩散模型从文本提示生成3D内容，但3D扩散模型受限于3D数据，难以生成高质量和多样化的3D资产。2D扩散模型虽然泛化性好且细节丰富，但其2D提升方法存在视角无关的模糊性，导致严重的多面Janus问题，文本提示无法充分指导学习连贯的3D结果。Sherpa3D没有重新训练昂贵的视角感知模型，而是充分利用易于获得的粗糙3D知识来增强提示，并指导2D提升优化进行细化。具体来说，本文设计了一对指导策略，源于3D扩散模型生成的粗糙3D先验：用于几何保真度的结构指导和用于3D连贯性的语义指导。通过这两种指导，2D扩散模型能够丰富3D内容，生成多样化和高质量的结果。大量实验表明，Sherpa3D在质量和3D一致性方面优于最先进的文本到3D方法。

🔬 方法详解

问题定义：现有文本到3D生成方法主要面临两个问题：一是基于2D扩散模型的提升方法，由于缺乏3D感知，容易产生视角不一致性，导致多面Janus问题；二是基于3D扩散模型的方法，受限于3D数据的匮乏，难以生成高质量和多样化的3D资产。这些问题限制了文本到3D生成技术的实际应用。

核心思路：Sherpa3D的核心思路是利用易于获得的粗糙3D先验知识，来指导2D扩散模型的提升过程，从而克服视角不一致性问题，并提升生成质量。具体来说，利用3D扩散模型生成粗糙的3D形状，然后从中提取结构和语义信息，作为指导信号来优化2D扩散模型的生成结果。这样既能利用2D扩散模型的强大生成能力，又能保证3D一致性。

技术框架：Sherpa3D框架主要包含以下几个阶段：1) 使用3D扩散模型生成粗糙的3D形状；2) 从粗糙3D形状中提取结构和语义信息，分别作为结构指导和语义指导；3) 使用2D扩散模型生成多视角图像；4) 利用结构指导和语义指导，优化2D扩散模型的生成结果，使其与粗糙3D形状保持一致；5) 将多视角图像提升为最终的3D模型。

关键创新：Sherpa3D的关键创新在于提出了利用粗糙3D先验来指导2D提升过程的策略。与直接使用2D扩散模型或3D扩散模型不同，Sherpa3D结合了两者的优点，既能利用2D扩散模型的强大生成能力，又能保证3D一致性。此外，结构指导和语义指导的设计，能够更有效地利用粗糙3D先验知识。

关键设计：结构指导通过最小化2D图像与粗糙3D形状的深度差异来实现，鼓励生成的2D图像在几何结构上与3D先验一致。语义指导则通过对比学习，使生成的2D图像在语义上与3D先验保持一致。损失函数包括深度一致性损失和语义一致性损失。具体参数设置未知。

📊 实验亮点

实验结果表明，Sherpa3D在生成质量和3D一致性方面显著优于现有方法。与现有最佳方法相比，Sherpa3D在用户偏好度调查中获得了更高的评分，表明用户更喜欢Sherpa3D生成的3D模型。具体的性能数据和提升幅度未知。

🎯 应用场景

Sherpa3D在游戏开发、虚拟现实、增强现实、电影制作等领域具有广泛的应用前景。它可以根据文本描述快速生成高质量的3D模型，降低3D内容创作的门槛，提高创作效率。未来，该技术有望应用于个性化定制、产品设计等领域，实现更智能化的3D内容生成。

📄 摘要（原文）

Recently, 3D content creation from text prompts has demonstrated remarkable progress by utilizing 2D and 3D diffusion models. While 3D diffusion models ensure great multi-view consistency, their ability to generate high-quality and diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion models find a distillation approach that achieves excellent generalization and rich details without any 3D data. However, 2D lifting methods suffer from inherent view-agnostic ambiguity thereby leading to serious multi-face Janus issues, where text prompts fail to provide sufficient guidance to learn coherent 3D results. Instead of retraining a costly viewpoint-aware model, we study how to fully exploit easily accessible coarse 3D knowledge to enhance the prompts and guide 2D lifting optimization for refinement. In this paper, we propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity, generalizability, and geometric consistency simultaneously. Specifically, we design a pair of guiding strategies derived from the coarse 3D prior generated by the 3D diffusion model: a structural guidance for geometric fidelity and a semantic guidance for 3D coherence. Employing the two types of guidance, the 2D diffusion model enriches the 3D content with diversified and high-quality results. Extensive experiments show the superiority of our Sherpa3D over the state-of-the-art text-to-3D methods in terms of quality and 3D consistency.

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册