CrimEdit: Controllable Editing for Counterfactual Object Removal, Insertion, and Movement

📄 arXiv: 2509.23708v1 📥 PDF

作者: Boseong Jeon, Junghyuk Lee, Jimin Park, Kwanyoung Kim, Jingi Jung, Sangwon Lee, Hyunbo Shim

分类: cs.CV, cs.AI

发布日期: 2025-09-28


💡 一句话要点

CrimEdit:提出可控编辑框架,实现反事实对象移除、插入和移动

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 图像编辑 反事实推理 扩散模型 对象移除 对象插入 无分类器引导 可控生成

📋 核心要点

  1. 现有对象移除和插入方法难以在统一模型中有效处理对象效果,且缺乏对无分类器引导的深入研究。
  2. CrimEdit联合训练移除和插入任务嵌入,并利用无分类器引导,实现对象及其效果的可控编辑。
  3. 实验表明,CrimEdit在对象移除、效果插入和对象移动方面表现出色,无需额外训练或分离阶段。

📝 摘要(中文)

本文提出CrimEdit,一个用于反事实对象移除、插入和移动的可控编辑框架。现有对象移除和插入方法通过在反事实数据集上训练的扩散模型,增强了对阴影和反射等对象效果的处理能力。然而,在统一模型中,将无分类器引导应用于移除和插入任务以处理对象效果的性能影响在很大程度上未被探索。CrimEdit通过在单个模型中联合训练移除和插入的任务嵌入,并在无分类器引导方案中利用它们,从而增强对象及其效果的移除,并实现对象插入期间对象效果的可控合成。CrimEdit还将这两个任务提示扩展到空间上不同的区域,从而在单个去噪步骤中实现对象移动(重新定位)。通过采用这两种引导技术,大量实验表明,CrimEdit实现了卓越的对象移除、可控的效果插入和高效的对象移动,而无需额外的训练或单独的移除和插入阶段。

🔬 方法详解

问题定义:现有对象移除和插入方法通常需要单独的模型或阶段,效率较低。此外,如何在一个统一的模型中有效地处理对象移除和插入过程中产生的阴影、反射等对象效果,并实现对这些效果的可控合成,是一个挑战。现有方法对无分类器引导在统一模型中的应用效果缺乏深入研究。

核心思路:CrimEdit的核心思路是联合训练对象移除和插入的任务嵌入,并在无分类器引导框架中利用这些嵌入。通过这种方式,模型可以同时学习移除和插入操作,并能够更好地理解和控制对象效果。此外,通过将任务提示扩展到空间上不同的区域,实现了对象移动的功能。

技术框架:CrimEdit基于扩散模型,整体框架包含以下几个主要模块:1) 任务嵌入模块:用于学习移除和插入任务的嵌入表示。2) 扩散模型:用于生成图像,并根据任务嵌入进行条件控制。3) 无分类器引导模块:用于增强对象效果的处理能力,并实现可控合成。整个流程包括:输入图像 -> 任务嵌入 -> 扩散模型去噪 -> 输出编辑后的图像。

关键创新:CrimEdit的关键创新在于:1) 联合训练移除和插入任务嵌入,实现统一模型中的高效编辑。2) 利用无分类器引导,增强了对对象效果的处理能力,并实现了可控合成。3) 将任务提示扩展到空间上不同的区域,实现了对象移动的功能。与现有方法相比,CrimEdit无需额外的训练或分离阶段,即可实现多种编辑操作。

关键设计:CrimEdit的关键设计包括:1) 任务嵌入的设计:采用可学习的嵌入向量来表示不同的编辑任务。2) 无分类器引导的实现:通过调整条件和非条件扩散模型的输出,实现对对象效果的控制。3) 损失函数的设计:采用多种损失函数,包括重建损失、对抗损失等,以保证生成图像的质量和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CrimEdit在对象移除、效果插入和对象移动方面均取得了显著的性能提升。例如,在对象移除任务中,CrimEdit的FID得分优于现有方法,表明其生成图像的质量更高。此外,CrimEdit还能够实现对对象效果的可控合成,例如可以控制阴影的强度和方向。

🎯 应用场景

CrimEdit具有广泛的应用前景,包括图像编辑、内容创作、虚拟现实、增强现实等领域。例如,可以用于快速移除图像中的不需要的对象,或者将对象插入到新的场景中,并控制其光照和阴影效果。此外,还可以用于创建虚拟场景,或者增强现实应用中的对象交互。

📄 摘要(原文)

Recent works on object removal and insertion have enhanced their performance by handling object effects such as shadows and reflections, using diffusion models trained on counterfactual datasets. However, the performance impact of applying classifier-free guidance to handle object effects across removal and insertion tasks within a unified model remains largely unexplored. To address this gap and improve efficiency in composite editing, we propose CrimEdit, which jointly trains the task embeddings for removal and insertion within a single model and leverages them in a classifier-free guidance scheme -- enhancing the removal of both objects and their effects, and enabling controllable synthesis of object effects during insertion. CrimEdit also extends these two task prompts to be applied to spatially distinct regions, enabling object movement (repositioning) within a single denoising step. By employing both guidance techniques, extensive experiments show that CrimEdit achieves superior object removal, controllable effect insertion, and efficient object movement without requiring additional training or separate removal and insertion stages.