Identity-preserving Distillation Sampling by Fixed-Point Iterator

📄 arXiv: 2502.19930v2 📥 PDF

作者: SeonHwa Kim, Jiwon Kim, Soobin Park, Donghoon Ahn, Jiwon Kang, Seungryong Kim, Kyong Hwan Jin, Eunju Cha

分类: cs.CV

发布日期: 2025-02-27 (更新: 2025-03-25)


💡 一句话要点

提出身份保持蒸馏采样(IDS),通过不动点迭代正则化解决SDS图像编辑中的身份漂移问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 图像编辑 Score Distillation Sampling 身份保持 不动点迭代 神经辐射场 文本引导生成 正则化

📋 核心要点

  1. SDS在图像生成和编辑中表现出色,但易受噪声梯度影响,导致生成结果模糊和身份漂移。
  2. 论文提出身份保持蒸馏采样(IDS),核心思想是通过不动点迭代正则化(FPR)修正score函数,从而保持编辑过程中的身份信息。
  3. 实验结果表明,IDS在图像到图像编辑和可编辑NeRF中,能有效保持源数据和编辑数据的结构一致性,优于现有方法。

📝 摘要(中文)

Score distillation sampling (SDS) 通过从学习到的 score 函数中提取知识,展示了在文本条件下的 2D 图像和 3D 对象生成的强大能力。然而,SDS 经常受到噪声梯度引起的模糊的影响。当 SDS 用于图像编辑时,可以通过使用参考对调整偏差来减少这种退化,但去偏技术仍然会被错误的梯度破坏。为此,我们引入了身份保持蒸馏采样 (IDS),它补偿了导致结果中不希望的变化的梯度。基于对这些错误来自文本条件 score 的分析,提出了一种新的正则化技术,称为不动点迭代正则化 (FPR),以修改 score 本身,从而驱动身份的保持,甚至包括姿势和结构。由于 FPR 的自我校正,所提出的方法在图像到图像编辑和可编辑神经辐射场 (NeRF) 中提供了对应于给定提示的清晰且明确的表示。与其他最先进的方法相比,源数据和编辑数据之间的结构一致性明显得到保持。

🔬 方法详解

问题定义:现有的基于Score Distillation Sampling (SDS) 的图像编辑方法,在利用文本引导进行图像编辑时,由于score函数中存在噪声梯度,会导致编辑后的图像出现模糊,更重要的是,图像的身份信息(如人物的脸部特征、物体的结构等)会发生漂移,使得编辑后的图像与原始图像差异过大。现有去偏置技术无法完全解决这个问题,仍然会受到错误梯度的影响。

核心思路:论文的核心思路是通过正则化score函数,使其在编辑过程中更好地保持图像的身份信息。具体来说,论文提出了一种不动点迭代正则化 (Fixed-Point Iterative Regularization, FPR) 方法,通过迭代的方式修正score函数,使其更加关注图像的身份特征,从而减少身份漂移。这样设计的目的是为了直接从score函数层面解决问题,避免梯度噪声对身份信息的影响。

技术框架:IDS方法的整体框架可以概括为:首先,利用文本提示和原始图像,通过SDS进行初步的图像编辑;然后,利用FPR对score函数进行迭代修正,使其更加关注身份信息;最后,利用修正后的score函数重新进行图像编辑,得到最终结果。该框架包含两个主要阶段:初步编辑和FPR修正。

关键创新:论文最重要的技术创新点在于提出了不动点迭代正则化 (FPR) 方法。FPR通过迭代的方式,逐步修正score函数,使其更加关注图像的身份特征。与现有的去偏置技术不同,FPR直接作用于score函数本身,从根本上解决了梯度噪声导致的身份漂移问题。这种迭代修正的方式能够有效地提取和保持图像的身份信息,从而提高编辑结果的质量。

关键设计:FPR的关键设计在于如何定义和计算不动点。论文中,不动点被定义为在给定文本提示下,能够最大程度保持原始图像身份信息的score函数。FPR通过迭代的方式,逐步逼近这个不动点。具体的迭代过程涉及到损失函数的定义和优化算法的选择。此外,论文可能还涉及到一些超参数的设置,例如迭代次数、学习率等,这些参数的选择会影响FPR的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的IDS方法在图像到图像编辑和可编辑NeRF任务上取得了显著的性能提升。实验结果表明,IDS能够有效地保持编辑前后图像的结构一致性,减少身份漂移,生成更清晰、更符合文本描述的图像。与其他state-of-the-art方法相比,IDS在主观视觉效果和客观评价指标上均表现出优势。

🎯 应用场景

该研究成果可广泛应用于图像编辑、3D内容生成、虚拟现实、游戏开发等领域。例如,可以用于生成具有特定风格但保持人物身份信息的图像,或者用于编辑3D模型,使其符合文本描述的同时保持原有的结构特征。该技术在内容创作和个性化定制方面具有重要的应用价值和商业潜力。

📄 摘要(原文)

Score distillation sampling (SDS) demonstrates a powerful capability for text-conditioned 2D image and 3D object generation by distilling the knowledge from learned score functions. However, SDS often suffers from blurriness caused by noisy gradients. When SDS meets the image editing, such degradations can be reduced by adjusting bias shifts using reference pairs, but the de-biasing techniques are still corrupted by erroneous gradients. To this end, we introduce Identity-preserving Distillation Sampling (IDS), which compensates for the gradient leading to undesired changes in the results. Based on the analysis that these errors come from the text-conditioned scores, a new regularization technique, called fixed-point iterative regularization (FPR), is proposed to modify the score itself, driving the preservation of the identity even including poses and structures. Thanks to a self-correction by FPR, the proposed method provides clear and unambiguous representations corresponding to the given prompts in image-to-image editing and editable neural radiance field (NeRF). The structural consistency between the source and the edited data is obviously maintained compared to other state-of-the-art methods.