Score Distillation via Reparametrized DDIM

📄 arXiv: 2405.15891v3 📥 PDF

作者: Artem Lukoianov, Haitz Sáez de Ocáriz Borde, Kristjan Greenewald, Vitor Campagnolo Guizilini, Timur Bagautdinov, Vincent Sitzmann, Justin Solomon

分类: cs.CV, cs.GR, cs.LG

发布日期: 2024-05-24 (更新: 2024-10-10)

备注: NeurIPS 2024. 28 pages, 30 figures. Revision: additional comparisons and ablations studies


💡 一句话要点

通过重参数化DDIM改进Score Distillation,提升3D形状生成质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 3D形状生成 Score Distillation Sampling DDIM 扩散模型 噪声估计

📋 核心要点

  1. 现有的基于2D扩散模型的3D形状生成方法(如SDS)存在过度平滑和卡通化的问题,无法生成高细节的3D形状。
  2. 论文提出通过重参数化DDIM,改进SDS的噪声采样方式,使其更接近DDIM,从而减少方差,避免过度平滑。
  3. 实验结果表明,该方法在3D形状生成方面取得了更好或相似的质量,无需额外的神经网络训练或多视图监督。

📝 摘要(中文)

二维扩散模型能够生成逼真且高细节的图像,但基于这些二维扩散模型的3D形状生成方法,如Score Distillation Sampling (SDS),却产生卡通化、过度平滑的形状。为了解释这种差异,我们证明了Score Distillation中使用的图像引导可以理解为二维去噪生成过程的速度场,直到噪声项的选择。特别地,经过变量替换后,SDS类似于具有不同采样噪声项的Denoising Diffusion Implicit Models (DDIM)的高方差版本:SDS在每个步骤中独立同分布地引入噪声,而DDIM从先前的噪声预测中推断它。这种过度的方差会导致过度平滑和不真实的输出。我们表明,通过在每个SDS更新步骤中反转DDIM,可以恢复更好的噪声近似。这种修改使得SDS的二维图像生成过程几乎与DDIM相同。在3D中,它消除了过度平滑,保留了更高频率的细节,并使生成质量更接近二维采样器。实验表明,我们的方法与其他最先进的Score Distillation方法相比,实现了更好或相似的3D生成质量,所有这些都不需要训练额外的神经网络或多视图监督,并为扩散模型在2D和3D资产生成之间的关系提供了有用的见解。

🔬 方法详解

问题定义:论文旨在解决基于Score Distillation Sampling (SDS)的3D形状生成方法中存在的过度平滑和卡通化问题。现有方法,特别是直接使用2D扩散模型作为3D生成的先验,会导致生成的3D模型缺乏高频细节,视觉效果不佳。SDS方法在噪声估计上存在偏差,导致生成过程不稳定,最终产生过度平滑的结果。

核心思路:论文的核心思路是将SDS方法与Denoising Diffusion Implicit Models (DDIM)联系起来,揭示SDS可以被视为DDIM的一种高方差变体。通过分析SDS的噪声采样过程,发现其在每一步独立地引入噪声,而DDIM则从之前的噪声预测中推断噪声。这种差异导致SDS的方差过大,从而引起过度平滑。因此,论文提出通过在SDS的更新步骤中反转DDIM,来更好地近似噪声,降低方差。

技术框架:该方法的核心在于修改SDS的噪声采样过程。具体来说,在每次SDS更新时,不是直接采样新的噪声,而是利用DDIM的反向过程,从当前图像和噪声预测中推断出更准确的噪声估计。这个过程可以看作是对SDS噪声采样的一种校正。整体流程仍然基于SDS框架,但关键在于噪声估计的改进。

关键创新:论文的关键创新在于将SDS与DDIM联系起来,并从噪声采样的角度解释了SDS的过度平滑问题。通过引入DDIM的反演步骤,改进了SDS的噪声估计,从而显著提升了3D形状生成的质量。这种方法不需要额外的神经网络训练或多视图监督,具有很强的实用性。

关键设计:关键设计在于DDIM反演步骤的实现。具体而言,需要根据DDIM的公式,利用当前图像和噪声预测,计算出更准确的噪声估计。这个过程涉及到DDIM的噪声调度和采样策略。此外,论文可能还对DDIM反演过程中的一些参数进行了调整,以适应SDS的框架。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在3D形状生成方面取得了显著的提升,消除了过度平滑,保留了更高频率的细节,并使生成质量更接近二维采样器。实验结果表明,该方法与其他最先进的Score Distillation方法相比,实现了更好或相似的3D生成质量,且无需额外的神经网络训练或多视图监督,降低了计算成本。

🎯 应用场景

该研究成果可应用于3D内容创作、虚拟现实、增强现实等领域。通过提升3D形状生成的质量,可以为游戏开发、电影制作、工业设计等行业提供更逼真、更精细的3D模型。此外,该方法还可以促进2D扩散模型在3D生成领域的应用,推动相关技术的发展。

📄 摘要(原文)

While 2D diffusion models generate realistic, high-detail images, 3D shape generation methods like Score Distillation Sampling (SDS) built on these 2D diffusion models produce cartoon-like, over-smoothed shapes. To help explain this discrepancy, we show that the image guidance used in Score Distillation can be understood as the velocity field of a 2D denoising generative process, up to the choice of a noise term. In particular, after a change of variables, SDS resembles a high-variance version of Denoising Diffusion Implicit Models (DDIM) with a differently-sampled noise term: SDS introduces noise i.i.d. randomly at each step, while DDIM infers it from the previous noise predictions. This excessive variance can lead to over-smoothing and unrealistic outputs. We show that a better noise approximation can be recovered by inverting DDIM in each SDS update step. This modification makes SDS's generative process for 2D images almost identical to DDIM. In 3D, it removes over-smoothing, preserves higher-frequency detail, and brings the generation quality closer to that of 2D samplers. Experimentally, our method achieves better or similar 3D generation quality compared to other state-of-the-art Score Distillation methods, all without training additional neural networks or multi-view supervision, and providing useful insights into relationship between 2D and 3D asset generation with diffusion models.