Rethinking Score Distillation as a Bridge Between Image Distributions

📄 arXiv: 2406.09417v2 📥 PDF

作者: David McAllister, Songwei Ge, Jia-Bin Huang, David W. Jacobs, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa

分类: cs.CV, cs.GR, cs.LG

发布日期: 2024-06-13 (更新: 2024-12-10)

备注: NeurIPS 2024. Project webpage: https://sds-bridge.github.io/


💡 一句话要点

通过图像分布桥梁重新审视Score Distillation,提升生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: Score Distillation Sampling 扩散模型 图像生成 最优传输 文本条件校准 NeRF优化 图像翻译

📋 核心要点

  1. 现有 Score Distillation Sampling (SDS) 方法存在伪影,限制了其通用性,需要改进。
  2. 将 SDS 视为源分布到目标分布的最优传输路径,通过校准源分布的文本条件来提升生成质量。
  3. 实验表明,该方法在多个领域(如 text-to-2D, NeRF 优化)表现优异,生成图像具有高频细节和逼真色彩。

📝 摘要(中文)

Score distillation sampling (SDS) 已成为重要工具,能够将大规模扩散先验应用于数据匮乏领域的任务。然而,SDS 存在一些典型的伪影,限制了其在通用应用中的有效性。本文通过将 SDS 及其变体视为解决从源分布到目标分布的最优成本传输路径,从而理解 SDS 的行为。在这种新的解释下,这些方法试图将损坏的图像(源)传输到自然图像分布(目标)。我们认为,当前方法的典型伪影是由 (1) 最优路径的线性近似和 (2) 源分布的糟糕估计引起的。我们表明,校准源分布的文本条件可以产生高质量的生成和翻译结果,而无需额外的开销。我们的方法可以轻松地应用于许多领域,匹配或击败专门方法的性能。我们展示了其在 text-to-2D、基于文本的 NeRF 优化、将绘画翻译成真实图像、光学错觉生成和 3D 草图到真实的应用。我们将我们的方法与现有的 score distillation sampling 方法进行了比较,结果表明它可以产生具有逼真色彩的高频细节。

🔬 方法详解

问题定义:现有的 Score Distillation Sampling (SDS) 方法在图像生成和转换任务中表现出一些固有的伪影,例如颜色失真、细节缺失等,这些伪影限制了 SDS 在更广泛应用场景中的有效性。根本原因在于对 score 的估计不准确,导致生成结果偏离真实图像分布。

核心思路:论文将 SDS 过程重新解释为从一个“损坏”的图像分布(源分布)到一个自然图像分布(目标分布)的最优传输路径问题。核心思想是通过更准确地估计和控制源分布,特别是通过校准文本条件,来优化这个传输路径,从而减少伪影并提高生成质量。

技术框架:该方法的核心在于对源分布的文本条件进行校准。具体流程包括:1) 使用扩散模型生成图像;2) 通过文本提示引导生成过程;3) 引入校准机制,调整文本提示对生成图像的影响,从而更准确地控制源分布;4) 利用校准后的源分布进行 score distillation,得到最终的生成结果。

关键创新:关键创新在于将 SDS 过程与最优传输理论联系起来,并认识到源分布估计不准确是导致伪影的主要原因。通过校准文本条件来更精确地控制源分布,从而优化整个生成过程。这种方法避免了对 score 本身的直接修改,而是从源头上改进了 score distillation 的输入。

关键设计:论文的关键设计在于文本条件校准机制。具体实现方式未知,但推测可能涉及调整文本嵌入的权重、引入额外的正则化项,或者使用对抗训练等方法,以确保生成的图像更符合真实图像分布,并减少伪影的产生。损失函数可能包含重建损失、对抗损失以及文本一致性损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在多个图像生成和转换任务中取得了显著的性能提升。例如,在 text-to-2D 图像生成任务中,该方法能够生成具有更高频率细节和更逼真色彩的图像,优于现有的 SDS 方法。在 NeRF 优化任务中,该方法能够生成更清晰、更真实的 3D 模型。

🎯 应用场景

该研究成果可广泛应用于图像生成、图像编辑、3D 内容生成等领域。例如,可以用于高质量的 text-to-image 生成、图像风格迁移、3D NeRF 优化、以及各种创意设计应用。该方法能够提升生成图像的真实感和细节,具有重要的实际应用价值和商业潜力。

📄 摘要(原文)

Score distillation sampling (SDS) has proven to be an important tool, enabling the use of large-scale diffusion priors for tasks operating in data-poor domains. Unfortunately, SDS has a number of characteristic artifacts that limit its usefulness in general-purpose applications. In this paper, we make progress toward understanding the behavior of SDS and its variants by viewing them as solving an optimal-cost transport path from a source distribution to a target distribution. Under this new interpretation, these methods seek to transport corrupted images (source) to the natural image distribution (target). We argue that current methods' characteristic artifacts are caused by (1) linear approximation of the optimal path and (2) poor estimates of the source distribution. We show that calibrating the text conditioning of the source distribution can produce high-quality generation and translation results with little extra overhead. Our method can be easily applied across many domains, matching or beating the performance of specialized methods. We demonstrate its utility in text-to-2D, text-based NeRF optimization, translating paintings to real images, optical illusion generation, and 3D sketch-to-real. We compare our method to existing approaches for score distillation sampling and show that it can produce high-frequency details with realistic colors.