ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

📄 arXiv: 2510.17803v1 📥 PDF

作者: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai

分类: cs.CV

发布日期: 2025-10-20

备注: SIGGRAPH Asia 2025


💡 一句话要点

ConsistEdit:提出一种高一致性和精确性的免训练视觉编辑方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像编辑 视频编辑 注意力机制 MM-DiT 免训练编辑 一致性编辑 文本引导编辑

📋 核心要点

  1. 现有免训练文本引导图像编辑方法难以兼顾编辑强度和与原始图像的一致性,尤其在多轮编辑和视频编辑中问题突出。
  2. ConsistEdit通过分析MM-DiT的注意力机制,提出视觉注意力控制、掩码引导预注意力融合和差异化token操作等策略。
  3. 实验表明,ConsistEdit在图像和视频编辑任务中达到SOTA,无需手工设计即可在所有推理步骤和注意力层进行编辑。

📝 摘要(中文)

现有免训练注意力控制方法能够为现有生成模型提供灵活高效的文本引导编辑能力。然而,当前方法难以同时保证强大的编辑强度和与源图像的一致性。这一限制在多轮和视频编辑中尤为关键,因为视觉误差会随时间累积。此外,大多数现有方法强制执行全局一致性,限制了它们修改纹理等单个属性同时保留其他属性的能力,从而阻碍了细粒度编辑。最近,从U-Net到MM-DiT的架构转变显著提高了生成性能,并引入了一种集成文本和视觉模态的新机制。这些进步为克服先前方法未能解决的挑战铺平了道路。通过对MM-DiT的深入分析,我们发现了其注意力机制的三个关键见解。在此基础上,我们提出ConsistEdit,一种专门为MM-DiT量身定制的新型注意力控制方法。ConsistEdit结合了仅视觉注意力控制、掩码引导的预注意力融合以及对查询、键和值token的差异化操作,以产生一致的、与prompt对齐的编辑结果。大量实验表明,ConsistEdit在各种图像和视频编辑任务中实现了最先进的性能,包括结构一致和结构不一致的场景。与先前的方法不同,它是第一种在所有推理步骤和注意力层中执行编辑而无需手工设计的方法,显著提高了可靠性和一致性,从而实现了鲁棒的多轮和多区域编辑。此外,它还支持逐步调整结构一致性,从而实现更精细的控制。

🔬 方法详解

问题定义:现有免训练图像编辑方法在保证编辑效果的同时,难以维持与原始图像的一致性,尤其是在需要进行多轮编辑或视频编辑的场景下,误差会逐渐累积。此外,现有方法通常强制全局一致性,无法实现对图像局部属性(如纹理)的精细控制。

核心思路:ConsistEdit的核心思路是深入分析MM-DiT的注意力机制,并在此基础上设计专门的注意力控制方法,以实现高一致性和精确性的图像编辑。通过对MM-DiT的分析,论文发现了其注意力机制的三个关键见解,并针对性地提出了解决方案。

技术框架:ConsistEdit的技术框架主要包括三个关键模块:1) 视觉注意力控制:用于保持图像的整体结构一致性;2) 掩码引导的预注意力融合:用于在编辑过程中融合文本和视觉信息,并允许对特定区域进行编辑;3) 查询、键和值token的差异化操作:用于更精细地控制编辑过程,并实现对图像局部属性的修改。整个流程无需训练,可以直接应用于现有的MM-DiT模型。

关键创新:ConsistEdit的关键创新在于其针对MM-DiT的注意力机制设计,实现了在所有推理步骤和注意力层中进行编辑而无需手工设计。这显著提高了编辑的可靠性和一致性,并支持鲁棒的多轮和多区域编辑。此外,ConsistEdit还支持逐步调整结构一致性,从而实现更精细的控制。

关键设计:ConsistEdit的关键设计包括:1) 使用视觉注意力控制来约束编辑过程,防止图像结构发生大的改变;2) 使用掩码引导的预注意力融合,允许用户指定需要编辑的区域,并控制编辑的范围;3) 对查询、键和值token进行差异化操作,以实现对图像局部属性的精细控制。具体参数设置和网络结构细节在论文中进行了详细描述(未知)。

📊 实验亮点

ConsistEdit在图像和视频编辑任务中取得了显著的性能提升,达到了SOTA水平。实验结果表明,ConsistEdit能够生成具有高一致性和精确性的编辑结果,并且支持鲁棒的多轮和多区域编辑。与现有方法相比,ConsistEdit无需手工设计即可在所有推理步骤和注意力层进行编辑,显著提高了编辑的可靠性和一致性。具体的性能数据和对比基线在论文中进行了详细展示(未知)。

🎯 应用场景

ConsistEdit具有广泛的应用前景,包括图像和视频编辑、内容创作、虚拟现实、游戏开发等领域。它可以用于快速生成具有特定风格或内容的图像和视频,例如,可以用于创建电影特效、设计游戏角色、生成虚拟场景等。此外,ConsistEdit还可以用于修复图像和视频中的缺陷,例如,可以用于去除图像中的噪声、修复视频中的损坏帧等。未来,ConsistEdit有望成为一种重要的图像和视频编辑工具。

📄 摘要(原文)

Recent advances in training-free attention control methods have enabled flexible and efficient text-guided editing capabilities for existing generation models. However, current approaches struggle to simultaneously deliver strong editing strength while preserving consistency with the source. This limitation becomes particularly critical in multi-round and video editing, where visual errors can accumulate over time. Moreover, most existing methods enforce global consistency, which limits their ability to modify individual attributes such as texture while preserving others, thereby hindering fine-grained editing. Recently, the architectural shift from U-Net to MM-DiT has brought significant improvements in generative performance and introduced a novel mechanism for integrating text and vision modalities. These advancements pave the way for overcoming challenges that previous methods failed to resolve. Through an in-depth analysis of MM-DiT, we identify three key insights into its attention mechanisms. Building on these, we propose ConsistEdit, a novel attention control method specifically tailored for MM-DiT. ConsistEdit incorporates vision-only attention control, mask-guided pre-attention fusion, and differentiated manipulation of the query, key, and value tokens to produce consistent, prompt-aligned edits. Extensive experiments demonstrate that ConsistEdit achieves state-of-the-art performance across a wide range of image and video editing tasks, including both structure-consistent and structure-inconsistent scenarios. Unlike prior methods, it is the first approach to perform editing across all inference steps and attention layers without handcraft, significantly enhancing reliability and consistency, which enables robust multi-round and multi-region editing. Furthermore, it supports progressive adjustment of structural consistency, enabling finer control.