DreamPolish: Domain Score Distillation With Progressive Geometry Generation
作者: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
分类: cs.CV, cs.AI
发布日期: 2024-11-03
💡 一句话要点
DreamPolish:结合领域分数蒸馏与渐进几何生成的文本到3D模型生成方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 文本到3D生成 神经表示 几何优化 纹理生成 领域分数蒸馏 无分类器引导 扩散模型
📋 核心要点
- 现有文本到3D生成方法在几何细节和纹理质量上存在不足,容易产生伪影,限制了3D模型的真实感。
- DreamPolish通过结合多种神经表示增强几何生成稳定性,并引入领域分数蒸馏(DSD)来指导纹理生成,提升真实感。
- 实验结果表明,DreamPolish在几何细节和纹理质量上均优于现有方法,能够生成更逼真、高质量的3D模型。
📝 摘要(中文)
DreamPolish是一种文本到3D生成模型,擅长生成精细的几何形状和高质量的纹理。在几何构建阶段,该方法利用多种神经表示来增强合成过程的稳定性。它没有仅仅依赖于新采样视图中的视图条件扩散先验,这种方法通常会导致几何表面上出现不希望的伪影,而是引入了一个额外的法线估计器来优化几何细节,该估计器以具有不同视场角的视点为条件。我们提出仅用几个训练步骤添加一个表面抛光阶段,该阶段可以有效地细化由于先前阶段的有限指导而导致的伪影,并生成具有更理想几何形状的3D对象。使用预训练文本到图像模型生成纹理的关键在于在这些模型的巨大潜在分布中找到一个合适的领域,该领域包含逼真且一致的渲染。在纹理生成阶段,我们引入了一种新的分数蒸馏目标,即领域分数蒸馏(DSD),以指导神经表示朝向这样的领域。我们从文本条件图像生成任务中的无分类器引导(CFG)中汲取灵感,并表明CFG和变分分布引导代表了梯度引导中的不同方面,并且都是增强纹理质量的必要领域。大量实验表明,我们提出的模型可以生成具有抛光表面和逼真纹理的3D资产,优于现有的最先进方法。
🔬 方法详解
问题定义:现有文本到3D生成方法面临几何形状不精确和纹理质量不高的问题。具体来说,几何生成过程中容易出现伪影,而纹理生成难以保证真实感和一致性。这些问题源于对几何细节的建模不足以及纹理生成缺乏有效的引导。
核心思路:DreamPolish的核心思路是分阶段优化几何形状和纹理。首先,通过多神经表示和法线估计器来提升几何生成的稳定性,减少伪影。然后,利用领域分数蒸馏(DSD)来引导纹理生成,使其更接近真实图像的分布,从而提高纹理的真实感和一致性。这样分而治之,能够有效解决现有方法的不足。
技术框架:DreamPolish包含两个主要阶段:几何生成和纹理生成。在几何生成阶段,使用多个神经表示和一个法线估计器来逐步优化3D模型的几何形状。在纹理生成阶段,利用领域分数蒸馏(DSD)来指导神经表示,使其生成更逼真的纹理。整个流程从文本输入开始,最终输出具有高质量几何形状和纹理的3D模型。
关键创新:DreamPolish的关键创新在于两个方面:一是引入了表面抛光阶段,利用法线估计器来细化几何细节,减少伪影;二是提出了领域分数蒸馏(DSD),通过模仿真实图像的分布来引导纹理生成,提高纹理的真实感。DSD与传统的无分类器引导(CFG)相结合,能够更有效地提升纹理质量。
关键设计:在几何生成阶段,使用了多个神经表示,具体类型未知,以增强稳定性。法线估计器以不同视场角的视点为条件,用于优化几何细节。在纹理生成阶段,DSD损失函数的设计模仿了无分类器引导(CFG)的思想,但又有所不同,具体公式未知。表面抛光阶段的训练步数较少,具体数值未知,以避免过度优化。
🖼️ 关键图片
📊 实验亮点
DreamPolish在几何细节和纹理质量上均优于现有方法。论文中提到,该模型能够生成具有抛光表面和逼真纹理的3D资产,但具体的性能数据和对比基线未知。通过表面抛光阶段,可以有效减少几何伪影,而领域分数蒸馏(DSD)则显著提升了纹理的真实感和一致性。
🎯 应用场景
DreamPolish具有广泛的应用前景,包括游戏开发、虚拟现实、增强现实、电影制作、产品设计等领域。它可以根据文本描述快速生成高质量的3D模型,降低了3D内容创作的门槛,并为用户提供更丰富的创作工具。未来,该技术有望进一步发展,实现更智能、更高效的3D内容生成。
📄 摘要(原文)
We introduce DreamPolish, a text-to-3D generation model that excels in producing refined geometry and high-quality textures. In the geometry construction phase, our approach leverages multiple neural representations to enhance the stability of the synthesis process. Instead of relying solely on a view-conditioned diffusion prior in the novel sampled views, which often leads to undesired artifacts in the geometric surface, we incorporate an additional normal estimator to polish the geometry details, conditioned on viewpoints with varying field-of-views. We propose to add a surface polishing stage with only a few training steps, which can effectively refine the artifacts attributed to limited guidance from previous stages and produce 3D objects with more desirable geometry. The key topic of texture generation using pretrained text-to-image models is to find a suitable domain in the vast latent distribution of these models that contains photorealistic and consistent renderings. In the texture generation phase, we introduce a novel score distillation objective, namely domain score distillation (DSD), to guide neural representations toward such a domain. We draw inspiration from the classifier-free guidance (CFG) in textconditioned image generation tasks and show that CFG and variational distribution guidance represent distinct aspects in gradient guidance and are both imperative domains for the enhancement of texture quality. Extensive experiments show our proposed model can produce 3D assets with polished surfaces and photorealistic textures, outperforming existing state-of-the-art methods.