Stable Score Distillation

📄 arXiv: 2507.09168v1 📥 PDF

作者: Haiming Zhu, Yangyang Xu, Chenshu Xu, Tingrui Shen, Wenxi Liu, Yong Du, Jun Yu, Shengfeng He

分类: cs.CV

发布日期: 2025-07-12


💡 一句话要点

提出Stable Score Distillation,提升文本引导图像和3D编辑的稳定性和对齐性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 文本引导编辑 扩散模型 Score Distillation 图像编辑 3D编辑 NeRF Classifier-Free Guidance

📋 核心要点

  1. 现有文本引导图像编辑方法依赖复杂结构,导致优化冲突,限制了编辑的稳定性和空间控制。
  2. Stable Score Distillation (SSD) 通过锚定源提示的分类器,并引入空文本分支来稳定优化过程,提升编辑质量。
  3. SSD在2D/3D编辑任务中表现出色,实现更快的收敛和更低的复杂度,显著提升了编辑效果。

📝 摘要(中文)

本文提出了一种名为Stable Score Distillation (SSD) 的框架,旨在提升基于扩散模型的文本引导图像和3D编辑的稳定性和对齐性。现有方法如Delta Denoising Score常面临稳定性、空间控制和编辑强度方面的挑战,这源于对复杂辅助结构的依赖,导致冲突的优化信号和对精确局部编辑的限制。SSD通过将单个分类器锚定到源提示来增强编辑过程中的稳定性和对齐性。具体而言,SSD利用无分类器引导(CFG)方程实现跨提示对齐,并引入一个恒定项空文本分支来稳定优化过程。该方法保留了原始内容的结构,并确保编辑轨迹与源提示紧密对齐,从而实现平滑的、特定于提示的修改,同时保持周围区域的连贯性。此外,SSD还包含一个提示增强分支,以提高编辑强度,尤其是在风格转换方面。该方法在2D和3D编辑任务(包括NeRF和文本驱动的风格编辑)中取得了最先进的结果,具有更快的收敛速度和更低的复杂性,为文本引导编辑提供了一个稳健而高效的解决方案。

🔬 方法详解

问题定义:现有基于扩散模型的文本引导图像和3D编辑方法,如Delta Denoising Score,在编辑过程中存在稳定性差、空间控制不足以及编辑强度受限等问题。这些问题主要源于对复杂辅助结构的依赖,这些结构引入了相互冲突的优化信号,从而限制了精确和局部的编辑能力。

核心思路:SSD的核心思路是通过稳定score distillation过程来解决上述问题。具体来说,SSD将一个分类器锚定到源提示,并利用无分类器引导(CFG)方程来实现跨提示对齐。此外,引入一个恒定项空文本分支来稳定优化过程,从而避免优化过程中的剧烈波动。

技术框架:SSD框架主要包含三个分支:源提示分支、目标提示分支和空文本分支。源提示分支用于保留原始图像或3D模型的结构信息;目标提示分支用于引导编辑过程,使其朝着目标方向进行;空文本分支则用于稳定优化过程,防止优化过程发散。整个框架通过score distillation loss进行训练,使得编辑后的图像或3D模型在视觉上与目标提示对齐,同时保持原始结构的完整性。

关键创新:SSD的关键创新在于其稳定score distillation过程的设计。通过锚定源提示的分类器和引入空文本分支,SSD有效地抑制了优化过程中的噪声和不稳定性,从而提高了编辑结果的质量和稳定性。此外,SSD还引入了一个提示增强分支,以提高编辑强度,尤其是在风格转换方面。

关键设计:SSD的关键设计包括:1) 使用Classifier-Free Guidance (CFG) 方程来实现跨提示对齐;2) 引入一个恒定项 null-text 分支来稳定优化过程,该分支的权重是一个可调节的超参数;3) 采用score distillation loss作为主要的训练目标,该损失函数衡量了编辑后的图像或3D模型与目标提示之间的相似度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SSD在2D和3D编辑任务中均取得了state-of-the-art的结果。实验表明,SSD能够生成更稳定、更精确的编辑结果,并且具有更快的收敛速度和更低的计算复杂度。例如,在NeRF编辑任务中,SSD能够生成更逼真的3D模型,并且能够更好地保留原始模型的结构信息。在文本驱动的风格编辑任务中,SSD能够生成更符合目标风格的图像,并且能够更好地保持图像的细节信息。

🎯 应用场景

该研究成果可广泛应用于图像编辑、3D模型编辑、虚拟现实、游戏开发等领域。例如,用户可以通过简单的文本描述,快速修改图像的风格、内容,或者编辑3D模型的形状、材质。该技术还可以用于生成具有特定风格的艺术作品,或者创建逼真的虚拟场景。未来,该技术有望成为内容创作的重要工具。

📄 摘要(原文)

Text-guided image and 3D editing have advanced with diffusion-based models, yet methods like Delta Denoising Score often struggle with stability, spatial control, and editing strength. These limitations stem from reliance on complex auxiliary structures, which introduce conflicting optimization signals and restrict precise, localized edits. We introduce Stable Score Distillation (SSD), a streamlined framework that enhances stability and alignment in the editing process by anchoring a single classifier to the source prompt. Specifically, SSD utilizes Classifier-Free Guidance (CFG) equation to achieves cross-prompt alignment, and introduces a constant term null-text branch to stabilize the optimization process. This approach preserves the original content's structure and ensures that editing trajectories are closely aligned with the source prompt, enabling smooth, prompt-specific modifications while maintaining coherence in surrounding regions. Additionally, SSD incorporates a prompt enhancement branch to boost editing strength, particularly for style transformations. Our method achieves state-of-the-art results in 2D and 3D editing tasks, including NeRF and text-driven style edits, with faster convergence and reduced complexity, providing a robust and efficient solution for text-guided editing.