DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

📄 arXiv: 2407.11394v3 📥 PDF

作者: Jiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

分类: cs.CV, cs.AI, cs.GR, cs.LG

发布日期: 2024-07-16 (更新: 2025-02-11)

备注: ICLR 2025


💡 一句话要点

DreamCatalyst:通过控制可编辑性和身份保持,实现快速高质量的3D编辑

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D编辑 扩散模型 Score Distillation Sampling 神经辐射场 3D高斯溅射

📋 核心要点

  1. 现有基于SDS的3D编辑方法与扩散模型的采样动态冲突,导致训练时间长、编辑质量低。
  2. DreamCatalyst通过将SDS视为扩散逆过程,并设计优化过程以近似扩散逆过程,从而与扩散采样动态对齐。
  3. DreamCatalyst在NeRF和3DGS编辑上实现了显著的加速和质量提升,优于现有SOTA方法。

📝 摘要(中文)

基于Score distillation sampling (SDS) 的方法已经成为文本驱动3D编辑任务中的有效框架,它利用扩散模型进行3D一致性编辑。然而,现有的基于SDS的3D编辑方法存在训练时间长和生成结果质量低的问题。我们发现,这种性能下降的根本原因是它们与扩散模型的采样动态相冲突。解决这种冲突使我们能够将SDS视为通过从数据空间采样进行3D编辑的扩散逆过程。相比之下,现有方法只是简单地使用扩散模型来提炼score函数。基于这些见解,我们提出了一种新的框架DreamCatalyst,该框架在SDS框架中考虑了这些采样动态。具体来说,我们设计了DreamCatalyst的优化过程,以近似编辑任务中的扩散逆过程,从而与扩散采样动态保持一致。因此,DreamCatalyst成功地减少了训练时间并提高了编辑质量。我们的方法提供两种模式:(1)快速模式,编辑神经辐射场(NeRF)场景的速度比当前最先进的NeRF编辑方法快约23倍;(2)高质量模式,生成的结果比这些方法快约8倍,并且质量更优。值得注意的是,我们的高质量模式在速度和质量方面都优于当前最先进的NeRF编辑方法。DreamCatalyst还超越了最先进的3D高斯溅射(3DGS)编辑方法,确立了其作为一种有效且模型无关的3D编辑解决方案的地位。

🔬 方法详解

问题定义:现有基于Score Distillation Sampling (SDS)的3D编辑方法,在利用扩散模型进行文本驱动的3D场景编辑时,存在训练时间过长和编辑结果质量不高的问题。这些方法直接将扩散模型作为score函数进行提炼,忽略了扩散模型的采样动态,导致优化过程不稳定,收敛速度慢,最终影响编辑质量。

核心思路:DreamCatalyst的核心思路是将SDS过程视为一个扩散逆过程,即从编辑后的数据分布中进行采样。通过优化3D场景,使其生成的图像能够更好地匹配扩散模型的逆过程,从而实现高效且高质量的3D编辑。这种方法的核心在于将SDS与扩散模型的采样动态对齐,避免了直接提炼score函数带来的问题。

技术框架:DreamCatalyst的整体框架包括以下几个主要步骤:1) 使用文本提示生成目标图像;2) 从扩散模型中采样噪声图像;3) 使用3D场景渲染引擎生成图像;4) 计算渲染图像与噪声图像之间的差异,并利用SDS损失函数优化3D场景参数。关键在于,DreamCatalyst的优化过程被设计为近似扩散逆过程,从而与扩散采样动态保持一致。

关键创新:DreamCatalyst最重要的创新点在于其将SDS过程与扩散模型的采样动态对齐。传统方法直接使用扩散模型作为score函数,而DreamCatalyst则将SDS视为一个扩散逆过程,并通过优化3D场景来匹配这个逆过程。这种方法避免了直接提炼score函数带来的问题,从而实现了更高效和高质量的3D编辑。

关键设计:DreamCatalyst的关键设计包括:1) 特定的优化策略,用于近似扩散逆过程;2) 精心设计的损失函数,用于衡量渲染图像与扩散模型采样结果之间的差异;3) 针对不同3D表示(如NeRF和3DGS)的适配性设计。具体的参数设置和网络结构细节在论文中进行了详细描述,以确保方法能够有效地应用于不同的3D编辑任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DreamCatalyst在NeRF场景编辑上,快速模式比现有SOTA方法快约23倍,高质量模式快约8倍,且编辑质量更高。在3DGS编辑任务中,DreamCatalyst也超越了现有SOTA方法,证明了其在不同3D表示上的有效性和通用性。这些实验结果表明,DreamCatalyst在速度和质量上都取得了显著的提升。

🎯 应用场景

DreamCatalyst在虚拟现实、游戏开发、电影制作、产品设计等领域具有广泛的应用前景。它可以用于快速创建和编辑3D场景,例如根据文本描述生成新的虚拟环境,或者修改现有的3D模型。该技术可以显著降低3D内容创作的门槛,提高创作效率,并为用户提供更加个性化和沉浸式的体验。

📄 摘要(原文)

Score distillation sampling (SDS) has emerged as an effective framework in text-driven 3D editing tasks, leveraging diffusion models for 3D-consistent editing. However, existing SDS-based 3D editing methods suffer from long training times and produce low-quality results. We identify that the root cause of this performance degradation is \textit{their conflict with the sampling dynamics of diffusion models}. Addressing this conflict allows us to treat SDS as a diffusion reverse process for 3D editing via sampling from data space. In contrast, existing methods naively distill the score function using diffusion models. From these insights, we propose DreamCatalyst, a novel framework that considers these sampling dynamics in the SDS framework. Specifically, we devise the optimization process of our DreamCatalyst to approximate the diffusion reverse process in editing tasks, thereby aligning with diffusion sampling dynamics. As a result, DreamCatalyst successfully reduces training time and improves editing quality. Our method offers two modes: (1) a fast mode that edits Neural Radiance Fields (NeRF) scenes approximately 23 times faster than current state-of-the-art NeRF editing methods, and (2) a high-quality mode that produces superior results about 8 times faster than these methods. Notably, our high-quality mode outperforms current state-of-the-art NeRF editing methods in terms of both speed and quality. DreamCatalyst also surpasses the state-of-the-art 3D Gaussian Splatting (3DGS) editing methods, establishing itself as an effective and model-agnostic 3D editing solution. See more extensive results on our project page: https://dream-catalyst.github.io.