AdaEdit: Adaptive Temporal and Channel Modulation for Flow-Based Image Editing
作者: Guandong Li, Zhaobin Chu
分类: cs.CV
发布日期: 2026-03-23
🔗 代码/项目: GITHUB
💡 一句话要点
AdaEdit提出自适应时序和通道调制,提升Flow Matching模型图像编辑质量。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图像编辑 Flow Matching模型 自适应特征注入 文本引导图像操作 免训练方法
📋 核心要点
- 现有基于Flow Matching模型的图像编辑方法在注入源图像特征时面临“注入困境”,即背景保留与编辑内容生成相互抑制。
- AdaEdit通过渐进式注入调度和平滑过渡,以及通道选择性潜在扰动,自适应地控制特征注入,从而解决注入困境。
- 实验表明,AdaEdit在LPIPS、SSIM和PSNR指标上优于现有方法,同时保持了良好的CLIP相似度,且易于集成。
📝 摘要(中文)
基于Inversion的Flow Matching模型图像编辑已成为一种强大的免训练、文本引导的图像操作范式。该范式的一个核心挑战是注入困境:在去噪过程中注入源图像特征可以保留原始图像的背景,但同时会抑制模型合成编辑内容的能力。现有方法采用固定的注入策略,如二元时序调度、均匀空间混合比例和通道无关的潜在扰动,忽略了时序和通道维度上注入需求的内在异质性。本文提出了AdaEdit,一个免训练的自适应编辑框架,通过两个互补的创新来解决这一困境。首先,我们提出了渐进式注入调度,用连续衰减函数(sigmoid、cosine或linear)代替硬二元截止,从而实现从源特征保留到目标特征生成的平滑过渡,并消除特征不连续伪影。其次,我们引入了通道选择性潜在扰动,它基于反演潜在和随机潜在之间的分布差距来估计每个通道的重要性,并相应地应用不同的扰动强度——强烈扰动编辑相关的通道,同时保留结构编码通道。在PIE-Bench基准测试(700张图像,10种编辑类型)上的大量实验表明,AdaEdit在LPIPS上实现了8.7%的降低,在SSIM上实现了2.6%的提高,在PSNR上实现了2.3%的提高,同时保持了具有竞争力的CLIP相似度。AdaEdit是完全即插即用的,并且与包括Euler、RF-Solver和FireFlow在内的多种ODE求解器兼容。
🔬 方法详解
问题定义:基于Flow Matching模型的图像编辑任务,目标是在保留原图背景的同时,根据文本引导修改图像内容。现有方法采用固定的特征注入策略,无法兼顾背景保留和编辑内容生成的需求,导致编辑效果不佳,出现特征不连续等问题。
核心思路:AdaEdit的核心思路是根据时序和通道维度的不同需求,自适应地调整特征注入的强度。通过渐进式注入调度,平滑地从保留源图像特征过渡到生成目标图像特征。通过通道选择性潜在扰动,对编辑相关的通道进行更强的扰动,而对结构编码的通道进行较弱的扰动。
技术框架:AdaEdit主要包含两个模块:渐进式注入调度(Progressive Injection Schedule)和通道选择性潜在扰动(Channel-Selective Latent Perturbation)。渐进式注入调度通过连续衰减函数控制特征注入的时序过程。通道选择性潜在扰动首先估计每个通道的重要性,然后根据重要性调整扰动强度。这两个模块共同作用,实现自适应的特征注入。
关键创新:AdaEdit的关键创新在于提出了自适应的特征注入策略,能够根据时序和通道维度的不同需求,动态地调整特征注入的强度。与现有方法采用的固定注入策略相比,AdaEdit能够更好地平衡背景保留和编辑内容生成的需求,从而提高编辑效果。
关键设计:渐进式注入调度采用sigmoid、cosine或linear等连续衰减函数,平滑地控制特征注入的强度。通道选择性潜在扰动通过计算反演潜在和随机潜在之间的分布差距来估计通道的重要性,并使用不同的扰动强度。具体而言,可以使用L1距离或L2距离来衡量分布差距。扰动强度可以通过一个缩放因子来控制,该缩放因子与通道重要性成正比。
🖼️ 关键图片
📊 实验亮点
AdaEdit在PIE-Bench基准测试中取得了显著的性能提升。相比于现有方法,AdaEdit在LPIPS指标上降低了8.7%,在SSIM指标上提高了2.6%,在PSNR指标上提高了2.3%,同时保持了具有竞争力的CLIP相似度。这些结果表明,AdaEdit能够有效地提高图像编辑的质量和一致性。
🎯 应用场景
AdaEdit可应用于图像编辑、图像生成、内容创作等领域。例如,用户可以通过文本描述修改图像中的物体、改变场景风格,或生成具有特定属性的图像。该技术具有广泛的应用前景,可以提升图像编辑的效率和质量,并为创意设计提供更多可能性。
📄 摘要(原文)
Inversion-based image editing in flow matching models has emerged as a powerful paradigm for training-free, text-guided image manipulation. A central challenge in this paradigm is the injection dilemma: injecting source features during denoising preserves the background of the original image but simultaneously suppresses the model's ability to synthesize edited content. Existing methods address this with fixed injection strategies -- binary on/off temporal schedules, uniform spatial mixing ratios, and channel-agnostic latent perturbation -- that ignore the inherently heterogeneous nature of injection demand across both the temporal and channel dimensions. In this paper, we present AdaEdit, a training-free adaptive editing framework that resolves this dilemma through two complementary innovations. First, we propose a Progressive Injection Schedule that replaces hard binary cutoffs with continuous decay functions (sigmoid, cosine, or linear), enabling a smooth transition from source-feature preservation to target-feature generation and eliminating feature discontinuity artifacts. Second, we introduce Channel-Selective Latent Perturbation, which estimates per-channel importance based on the distributional gap between the inverted and random latents and applies differentiated perturbation strengths accordingly -- strongly perturbing edit-relevant channels while preserving structure-encoding channels. Extensive experiments on the PIE-Bench benchmark (700 images, 10 editing types) demonstrate that AdaEdit achieves an 8.7% reduction in LPIPS, a 2.6% improvement in SSIM, and a 2.3% improvement in PSNR over strong baselines, while maintaining competitive CLIP similarity. AdaEdit is fully plug-and-play and compatible with multiple ODE solvers including Euler, RF-Solver, and FireFlow. Code is available at https://github.com/leeguandong/AdaEdit