From Competition to Coopetition: Coopetitive Training-Free Image Editing Based on Text Guidance
作者: Jinhao Shen, Haoqian Du, Xulu Zhang, Xiao-Yong Wei, Qing Li
分类: cs.CV
发布日期: 2026-04-17
🔗 代码/项目: GITHUB
💡 一句话要点
提出CoEdit,通过竞争合作训练实现文本引导的免训练图像编辑
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 文本引导图像编辑 免训练学习 合作竞争训练 注意力机制 图像生成
📋 核心要点
- 现有文本引导图像编辑方法采用竞争范式,导致编辑和重建分支之间产生语义冲突和结果不可预测。
- CoEdit将注意力控制从竞争转变为合作竞争,通过双熵注意力操纵和熵潜在细化机制实现编辑和谐。
- 实验表明,CoEdit在编辑质量和结构保持方面优于现有方法,提升了视觉和文本模态之间的交互效果。
📝 摘要(中文)
本文提出了一种名为Coopetitive Training-Free Image Editing (CoEdit) 的新型零样本框架,用于解决文本引导的图像编辑任务。现有免训练方法通常采用竞争范式,编辑和重建分支分别独立地最大化与目标和源提示的对齐,导致语义冲突和不可预测的结果。CoEdit将注意力控制从竞争转变为合作竞争的协商,从而在空间和时间维度上实现编辑的和谐。在空间上,引入了双熵注意力操纵,量化分支之间的定向熵交互,将注意力控制重新定义为和谐最大化问题,从而改善可编辑和可保留区域的定位。在时间上,提出了熵潜在细化机制,以动态调整潜在表示,最大限度地减少累积的编辑错误,并确保整个去噪轨迹中语义转换的一致性。此外,还提出了保真度约束编辑评分,这是一个综合指标,用于联合评估语义编辑和背景保真度。在标准基准上的大量实验表明,CoEdit在编辑质量和结构保持方面均实现了卓越的性能。
🔬 方法详解
问题定义:文本引导的图像编辑旨在根据给定的文本描述修改图像内容。现有免训练方法通常采用竞争范式,即编辑分支和重建分支分别独立地优化,以最大化与目标文本提示和原始图像的对齐。这种竞争关系会导致语义冲突,使得编辑结果难以预测,并且可能破坏图像的原始结构。
核心思路:CoEdit的核心思想是将编辑和重建分支之间的关系从竞争转变为合作竞争。通过量化两个分支之间的熵交互,并将其转化为一个和谐最大化问题,从而协调两个分支的行为,实现更精确、更可控的图像编辑。同时,通过动态调整潜在表示,减少编辑过程中的累积误差,保证语义转换的一致性。
技术框架:CoEdit框架主要包含以下几个模块:1) 双熵注意力操纵(Dual-Entropy Attention Manipulation):用于量化编辑分支和重建分支之间的熵交互,并根据交互结果调整注意力权重,从而更好地定位可编辑和可保留区域。2) 熵潜在细化机制(Entropic Latent Refinement):用于在去噪过程中动态调整潜在表示,减少累积误差,保证语义一致性。3) 保真度约束编辑评分(Fidelity-Constrained Editing Score):用于综合评估编辑结果的语义编辑质量和背景保真度。
关键创新:CoEdit的关键创新在于将竞争范式转变为合作竞争范式,通过双熵注意力操纵实现空间上的编辑和谐,并通过熵潜在细化机制实现时间上的编辑和谐。这种合作竞争的策略能够更好地平衡编辑质量和结构保持,从而生成更自然、更符合用户意图的编辑结果。
关键设计:双熵注意力操纵通过计算编辑分支和重建分支之间的交叉熵,来量化它们之间的信息交互。熵潜在细化机制通过一个动态调整系数来控制潜在表示的更新幅度,该系数基于当前潜在表示的熵值计算得到。保真度约束编辑评分则结合了语义编辑的相似度和背景的结构相似度,从而综合评估编辑结果的质量。
🖼️ 关键图片
📊 实验亮点
CoEdit在标准基准测试中表现出色,在编辑质量和结构保持方面均优于现有方法。实验结果表明,CoEdit能够更精确地实现文本引导的图像编辑,同时保持图像的原始结构和细节。通过合作竞争的训练方式,CoEdit能够更好地平衡编辑质量和结构保持,生成更自然、更符合用户意图的编辑结果。
🎯 应用场景
CoEdit在图像编辑、内容创作、艺术设计等领域具有广泛的应用前景。它可以用于快速生成符合特定文本描述的图像,例如修改图像风格、改变物体外观、添加或删除场景元素等。该技术可以应用于广告设计、游戏开发、电影制作等行业,提高内容创作效率和质量,并为用户提供更便捷、更个性化的图像编辑体验。
📄 摘要(原文)
Text-guided image editing, a pivotal task in modern multimedia content creation, has seen remarkable progress with training-free methods that eliminate the need for additional optimization. Despite recent progress, existing methods are typically constrained by a competitive paradigm in which the editing and reconstruction branches are independently driven by their respective objectives to maximize alignment with target and source prompts. The adversarial strategy causes semantic conflicts and unpredictable outcomes due to the lack of coordination between branches. To overcome these issues, we propose Coopetitive Training-Free Image Editing (CoEdit), a novel zero-shot framework that transforms attention control from competition to coopetitive negotiation, achieving editing harmony across spatial and temporal dimensions. Spatially, CoEdit introduces Dual-Entropy Attention Manipulation, which quantifies directional entropic interactions between branches to reformulate attention control as a harmony-maximization problem, eventually improving the localization of editable and preservable regions. Temporally, we present Entropic Latent Refinement mechanism to dynamically adjust latent representations over time, minimizing accumulated editing errors and ensuring consistent semantic transitions throughout the denoising trajectory. Additionally, we propose the Fidelity-Constrained Editing Score, a composite metric that jointly evaluates semantic editing and background fidelity. Extensive experiments on standard benchmarks demonstrate that CoEdit achieves superior performance in both editing quality and structural preservation, enhancing multimedia information utilization by enabling more effective interaction between visual and textual modalities. The code will be available at https://github.com/JinhaoShen/CoEdit.