VividDreamer: Invariant Score Distillation For Hyper-Realistic Text-to-3D Generation

📄 arXiv: 2407.09822v2 📥 PDF

作者: Wenjie Zhuo, Fan Ma, Hehe Fan, Yi Yang

分类: cs.CV

发布日期: 2024-07-13 (更新: 2024-07-17)

备注: ECCV 2024


💡 一句话要点

VividDreamer:提出不变分数蒸馏(ISD)方法,解决文本到3D生成中的过饱和与过平滑问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 文本到3D生成 分数蒸馏采样 不变分数蒸馏 过饱和 过平滑 DDIM采样 单阶段优化

📋 核心要点

  1. 现有基于分数蒸馏采样(SDS)的文本到3D生成方法存在过饱和和过平滑的问题,导致生成质量下降。
  2. ISD方法将SDS分解为重建项和无分类器引导项,并用DDIM采样导出的不变分数项替换重建项,从而缓解过饱和与过平滑。
  3. 实验结果表明,ISD方法能够显著提升SDS的性能,生成更逼真、高质量的3D对象,实现单阶段优化。

📝 摘要(中文)

本文提出了一种名为不变分数蒸馏(ISD)的新方法,用于高保真文本到3D生成。ISD旨在解决分数蒸馏采样(SDS)中存在的过饱和和过平滑问题。在本文中,SDS被解耦为重建项和无分类器引导项的加权和。实验发现,过饱和源于较大的无分类器引导尺度,而过平滑则源于重建项。为了克服这些问题,ISD利用从DDIM采样中导出的不变分数项来替换SDS中的重建项。这种操作允许使用中等的无分类器引导尺度,并减轻与重建相关的误差,从而防止结果的过平滑和过饱和。大量实验表明,我们的方法极大地增强了SDS,并通过单阶段优化生成逼真的3D对象。

🔬 方法详解

问题定义:现有的基于分数蒸馏采样(SDS)的文本到3D生成方法,在优化过程中容易出现过饱和和过平滑的问题。过饱和表现为颜色过于鲜艳,细节丢失;过平滑则表现为模型过于模糊,缺乏锐利边缘。这些问题严重影响了生成3D模型的真实感和视觉质量。

核心思路:ISD的核心思路是将SDS解耦为重建项和无分类器引导项,并分别分析它们对过饱和和过平滑的影响。研究发现,过饱和主要源于无分类器引导项的尺度过大,而过平滑则源于重建项的误差。因此,ISD提出使用从DDIM采样中导出的不变分数项来替换原有的重建项,从而在保证重建质量的同时,降低重建误差,并允许使用适中的无分类器引导尺度。

技术框架:ISD方法仍然采用单阶段优化框架,但对SDS的损失函数进行了改进。整体流程如下:首先,根据给定的文本提示,初始化一个3D模型。然后,使用DDIM采样生成一个不变分数项,并将其与无分类器引导项结合,构成新的损失函数。最后,通过优化3D模型,使其生成的图像与文本提示相符,并具有高质量的视觉效果。

关键创新:ISD最重要的创新点在于使用不变分数项替换了SDS中的重建项。这种替换有效地降低了重建误差,并允许使用更小的无分类器引导尺度,从而避免了过饱和和过平滑的问题。此外,通过解耦SDS并分析其组成部分对生成结果的影响,为后续研究提供了新的思路。

关键设计:ISD的关键设计在于不变分数项的计算方式。具体来说,该分数项是从DDIM采样的过程中获得的,它代表了在给定噪声水平下,图像的真实分布梯度方向。通过使用这个不变分数项,可以更准确地指导3D模型的优化方向,从而生成更逼真的3D对象。此外,无分类器引导尺度的选择也是一个关键参数,需要根据具体任务进行调整,以达到最佳的生成效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VividDreamer在文本到3D生成任务中显著优于现有的SDS方法。通过使用不变分数蒸馏,该方法能够生成更逼真、细节更丰富的3D模型,有效解决了过饱和和过平滑问题。主观评价和客观指标均显示,VividDreamer在生成质量上取得了显著提升。

🎯 应用场景

VividDreamer技术可广泛应用于游戏开发、电影制作、虚拟现实、增强现实、工业设计等领域。它能够根据文本描述快速生成高质量的3D模型,极大地降低了3D内容创作的门槛和成本。未来,该技术有望与更多AI工具结合,实现更智能、更高效的3D内容生成。

📄 摘要(原文)

This paper presents Invariant Score Distillation (ISD), a novel method for high-fidelity text-to-3D generation. ISD aims to tackle the over-saturation and over-smoothing problems in Score Distillation Sampling (SDS). In this paper, SDS is decoupled into a weighted sum of two components: the reconstruction term and the classifier-free guidance term. We experimentally found that over-saturation stems from the large classifier-free guidance scale and over-smoothing comes from the reconstruction term. To overcome these problems, ISD utilizes an invariant score term derived from DDIM sampling to replace the reconstruction term in SDS. This operation allows the utilization of a medium classifier-free guidance scale and mitigates the reconstruction-related errors, thus preventing the over-smoothing and over-saturation of results. Extensive experiments demonstrate that our method greatly enhances SDS and produces realistic 3D objects through single-stage optimization.