Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models
作者: Yoad Tewel, Rinon Gal, Dvir Samuel, Yuval Atzmon, Lior Wolf, Gal Chechik
分类: cs.CV, cs.AI, cs.GR, cs.LG
发布日期: 2024-11-11 (更新: 2024-11-12)
备注: Project page is at https://research.nvidia.com/labs/par/addit/
💡 一句话要点
Add-it:基于预训练扩散模型的免训练图像对象插入方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 图像编辑 对象插入 扩散模型 注意力机制 免训练 文本引导图像生成 可供性 预训练模型
📋 核心要点
- 现有图像编辑模型在复杂场景中添加对象时,难以平衡保持原始场景与无缝集成新对象。
- Add-it通过扩展扩散模型的注意力机制,融合场景图像、文本提示和生成图像的信息,实现自然的对象放置。
- 实验表明,Add-it在对象插入任务上优于现有方法,并在人类评估和自动化指标上均有显著提升。
📝 摘要(中文)
本文提出了一种名为Add-it的免训练方法,用于在图像中根据文本指令添加对象。该方法扩展了扩散模型的注意力机制,使其能够整合来自三个关键来源的信息:场景图像、文本提示和生成的图像本身。通过加权扩展注意力机制,Add-it在保持结构一致性和精细细节的同时,确保了对象放置的自然性。无需特定任务的微调,Add-it在真实和生成图像插入基准测试中均取得了最先进的结果,包括作者新构建的“添加可供性基准”,用于评估对象放置的合理性,优于监督方法。人类评估表明,在超过80%的情况下,Add-it更受欢迎,并且在各种自动化指标方面也表现出改进。
🔬 方法详解
问题定义:论文旨在解决在图像中根据文本指令插入对象的问题。现有方法通常难以在保持场景一致性的同时,自然地放置新对象,尤其是在复杂场景中,容易出现不协调或不合理的放置结果。
核心思路:核心思路是利用预训练扩散模型的强大生成能力,并扩展其注意力机制,使其能够同时关注原始图像、文本提示以及生成过程中的图像。通过这种方式,模型可以更好地理解场景上下文,并生成与场景相协调的对象放置。
技术框架:Add-it的核心是扩展的注意力机制。该机制在标准的扩散模型注意力层中,引入了来自原始图像、文本提示和当前生成图像的信息。具体来说,模型计算三个注意力权重,分别对应于原始图像、文本提示和生成图像,然后将这些权重加权组合,得到最终的注意力权重。这个加权组合的注意力权重用于指导扩散模型的生成过程,从而实现对象的自然插入。
关键创新:最关键的创新在于加权扩展注意力机制。与现有方法不同,Add-it不需要针对特定任务进行微调,而是直接利用预训练扩散模型的知识。通过加权组合来自不同来源的信息,Add-it能够更好地平衡场景一致性和对象放置的自然性。
关键设计:Add-it的关键设计在于注意力权重的计算方式。作者使用了可学习的权重参数,这些参数可以通过反向传播进行优化。此外,作者还设计了一个新的评估指标“添加可供性基准”,用于评估对象放置的合理性。在实验中,作者使用了Stable Diffusion作为预训练扩散模型,并使用了Adam优化器进行训练。
🖼️ 关键图片
📊 实验亮点
Add-it在真实和生成图像插入基准测试中均取得了最先进的结果,优于现有的监督方法。在作者构建的“添加可供性基准”上,Add-it也表现出显著的优势,表明其能够更合理地放置对象。人类评估表明,在超过80%的情况下,用户更喜欢Add-it生成的结果。此外,Add-it在各种自动化指标方面也表现出改进。
🎯 应用场景
Add-it具有广泛的应用前景,例如图像编辑、虚拟现实、游戏开发等领域。它可以用于快速生成包含特定对象的图像,例如在室内场景中添加家具,或在风景照片中添加人物。该技术还可以用于增强现实应用,例如在用户拍摄的照片中添加虚拟对象,从而提供更丰富的交互体验。未来,该技术有望应用于更复杂的场景,例如视频编辑和三维建模。
📄 摘要(原文)
Adding Object into images based on text instructions is a challenging task in semantic image editing, requiring a balance between preserving the original scene and seamlessly integrating the new object in a fitting location. Despite extensive efforts, existing models often struggle with this balance, particularly with finding a natural location for adding an object in complex scenes. We introduce Add-it, a training-free approach that extends diffusion models' attention mechanisms to incorporate information from three key sources: the scene image, the text prompt, and the generated image itself. Our weighted extended-attention mechanism maintains structural consistency and fine details while ensuring natural object placement. Without task-specific fine-tuning, Add-it achieves state-of-the-art results on both real and generated image insertion benchmarks, including our newly constructed "Additing Affordance Benchmark" for evaluating object placement plausibility, outperforming supervised methods. Human evaluations show that Add-it is preferred in over 80% of cases, and it also demonstrates improvements in various automated metrics.