VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation

作者: Zixuan Chen, Ruijie Su, Jiahao Zhu, Lingxiao Yang, Jian-Huang Lai, Xiaohua Xie

分类: cs.CV

发布日期: 2024-06-21

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

VividDreamer：提出姿态依赖一致性蒸馏采样，实现高质量高效的文本到3D生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 文本到3D生成 扩散模型 分数蒸馏采样 姿态依赖一致性 3D资产生成 由粗到精优化 梯度估计 高效生成

📋 核心要点

现有文本到3D生成方法，如SDS，为加速生成忽略U-Net雅可比矩阵，导致梯度偏差，产生颜色偏差、Janus问题等。
论文提出姿态依赖一致性蒸馏采样（PCDS），在扩散轨迹中构建姿态依赖的一致性函数，用少量采样步骤近似真实梯度。
实验表明，PCDS在生成质量和训练效率上优于现有方法，有效缓解了不合理的3D生成问题，并可应用于多种3D生成任务。

📝 摘要（中文）

文本到3D生成旨在从文本到图像的扩散模型中创建3D资产。然而，现有方法在生成质量方面面临固有的瓶颈，因为诸如分数蒸馏采样（SDS）等广泛使用的目标不恰当地省略了U-Net雅可比矩阵以实现快速生成，导致与通过完整去噪采样获得的“真实”梯度相比存在显着偏差。这种偏差带来了不一致的更新方向，导致不合理的3D生成，例如颜色偏差、Janus问题和语义上不一致的细节。在这项工作中，我们提出了一种新颖而高效的基于扩散的3D生成任务目标：姿态依赖一致性蒸馏采样（PCDS）。具体而言，PCDS在扩散轨迹内构建姿态依赖的一致性函数，允许通过最少的采样步骤（1-3）来近似真实梯度。与SDS相比，PCDS可以在相同的采样时间（1个采样步骤）内获得更准确的更新方向，同时能够通过少量步骤（2-3）的采样来权衡计算以获得更高的生成质量。为了实现高效生成，我们提出了一种由粗到精的优化策略，该策略首先利用1步PCDS来创建3D对象的基本结构，然后逐步增加PCDS步骤以生成细粒度的细节。大量的实验表明，我们的方法在生成质量和训练效率方面优于最先进的方法，显着缓解了由偏差更新方向引起的不合理的3D生成问题。此外，它可以简单地应用于许多3D生成应用以产生令人印象深刻的3D资产。

🔬 方法详解

问题定义：现有文本到3D生成方法，特别是基于Score Distillation Sampling (SDS) 的方法，为了提高生成速度，会忽略U-Net的雅可比矩阵。这种简化导致计算出的梯度与真实梯度之间存在偏差，使得3D模型的更新方向不一致，最终导致生成质量下降，出现颜色失真、Janus问题（一个物体出现多个不应有的面）以及语义细节不一致等问题。现有方法难以在生成质量和效率之间取得平衡。

核心思路：论文的核心思路是提出Pose-dependent Consistency Distillation Sampling (PCDS)，即姿态依赖一致性蒸馏采样。PCDS的核心在于在扩散模型的采样轨迹中，建立姿态依赖的一致性函数。通过这种方式，即使只进行少量采样步骤（1-3步），也能更准确地近似真实梯度，从而避免SDS方法中因忽略雅可比矩阵而产生的偏差。PCDS允许在计算资源和生成质量之间进行权衡，通过增加采样步骤来进一步提高生成质量。

技术框架：VividDreamer的整体框架包含两个主要阶段：粗略结构生成和精细细节优化。首先，使用1步PCDS快速生成3D对象的基本结构。然后，逐步增加PCDS的采样步骤（2-3步）来优化模型的细节，从而提高生成质量。这种由粗到精的优化策略旨在在保证生成效率的同时，最大程度地提高生成质量。

关键创新：PCDS是该论文最关键的创新点。与SDS等方法不同，PCDS通过构建姿态依赖的一致性函数，能够在少量采样步骤下更准确地估计真实梯度。这种方法避免了因忽略雅可比矩阵而产生的梯度偏差，从而显著提高了3D模型的生成质量。PCDS的核心在于利用扩散模型采样轨迹中的一致性信息，从而实现更准确的梯度估计。

关键设计：PCDS的关键设计在于姿态依赖的一致性函数。具体来说，该函数衡量了在不同姿态下，扩散模型生成的图像之间的一致性。通过最小化这种不一致性，可以有效地约束3D模型的形状和外观，从而提高生成质量。此外，论文还提出了一种由粗到精的优化策略，该策略通过逐步增加PCDS的采样步骤来优化模型的细节。这种策略允许在生成效率和质量之间进行权衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VividDreamer在生成质量和训练效率方面均优于现有方法。与SDS相比，PCDS能够在相同的采样时间内获得更准确的更新方向，并且可以通过少量步骤的采样来提高生成质量。通过由粗到精的优化策略，VividDreamer能够生成具有高质量细节的3D模型，并有效缓解了颜色偏差和Janus问题等常见问题。项目主页提供了更多视觉效果对比。

🎯 应用场景

VividDreamer具有广泛的应用前景，包括游戏资产生成、虚拟现实内容创作、电影特效制作、产品设计和原型制作等。该技术能够根据文本描述快速生成高质量的3D模型，极大地降低了3D内容创作的门槛，并有望推动相关产业的发展。未来，该技术还可以应用于个性化定制、教育和科研等领域。

📄 摘要（原文）

Text-to-3D generation aims to create 3D assets from text-to-image diffusion models. However, existing methods face an inherent bottleneck in generation quality because the widely-used objectives such as Score Distillation Sampling (SDS) inappropriately omit U-Net jacobians for swift generation, leading to significant bias compared to the "true" gradient obtained by full denoising sampling. This bias brings inconsistent updating direction, resulting in implausible 3D generation e.g., color deviation, Janus problem, and semantically inconsistent details). In this work, we propose Pose-dependent Consistency Distillation Sampling (PCDS), a novel yet efficient objective for diffusion-based 3D generation tasks. Specifically, PCDS builds the pose-dependent consistency function within diffusion trajectories, allowing to approximate true gradients through minimal sampling steps (1-3). Compared to SDS, PCDS can acquire a more accurate updating direction with the same sampling time (1 sampling step), while enabling few-step (2-3) sampling to trade compute for higher generation quality. For efficient generation, we propose a coarse-to-fine optimization strategy, which first utilizes 1-step PCDS to create the basic structure of 3D objects, and then gradually increases PCDS steps to generate fine-grained details. Extensive experiments demonstrate that our approach outperforms the state-of-the-art in generation quality and training efficiency, conspicuously alleviating the implausible 3D generation issues caused by the deviated updating direction. Moreover, it can be simply applied to many 3D generative applications to yield impressive 3D assets, please see our project page: https://narcissusex.github.io/VividDreamer.

VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理