Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

作者: Yoad Tewel, Rinon Gal, Dvir Samuel, Yuval Atzmon, Lior Wolf, Gal Chechik

分类: cs.CV, cs.AI, cs.GR, cs.LG

发布日期: 2024-11-11 (更新: 2024-11-12)

备注: Project page is at https://research.nvidia.com/labs/par/addit/

💡 一句话要点

Add-it：基于预训练扩散模型的免训练图像对象插入方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 图像编辑 对象插入 扩散模型 注意力机制 免训练 文本引导图像生成 可供性 预训练模型

📋 核心要点

现有图像编辑模型在复杂场景中添加对象时，难以平衡保持原始场景与无缝集成新对象。
Add-it通过扩展扩散模型的注意力机制，融合场景图像、文本提示和生成图像的信息，实现自然的对象放置。
实验表明，Add-it在对象插入任务上优于现有方法，并在人类评估和自动化指标上均有显著提升。

📝 摘要（中文）

本文提出了一种名为Add-it的免训练方法，用于在图像中根据文本指令添加对象。该方法扩展了扩散模型的注意力机制，使其能够整合来自三个关键来源的信息：场景图像、文本提示和生成的图像本身。通过加权扩展注意力机制，Add-it在保持结构一致性和精细细节的同时，确保了对象放置的自然性。无需特定任务的微调，Add-it在真实和生成图像插入基准测试中均取得了最先进的结果，包括作者新构建的“添加可供性基准”，用于评估对象放置的合理性，优于监督方法。人类评估表明，在超过80%的情况下，Add-it更受欢迎，并且在各种自动化指标方面也表现出改进。

🔬 方法详解

问题定义：论文旨在解决在图像中根据文本指令插入对象的问题。现有方法通常难以在保持场景一致性的同时，自然地放置新对象，尤其是在复杂场景中，容易出现不协调或不合理的放置结果。

核心思路：核心思路是利用预训练扩散模型的强大生成能力，并扩展其注意力机制，使其能够同时关注原始图像、文本提示以及生成过程中的图像。通过这种方式，模型可以更好地理解场景上下文，并生成与场景相协调的对象放置。

技术框架：Add-it的核心是扩展的注意力机制。该机制在标准的扩散模型注意力层中，引入了来自原始图像、文本提示和当前生成图像的信息。具体来说，模型计算三个注意力权重，分别对应于原始图像、文本提示和生成图像，然后将这些权重加权组合，得到最终的注意力权重。这个加权组合的注意力权重用于指导扩散模型的生成过程，从而实现对象的自然插入。

关键创新：最关键的创新在于加权扩展注意力机制。与现有方法不同，Add-it不需要针对特定任务进行微调，而是直接利用预训练扩散模型的知识。通过加权组合来自不同来源的信息，Add-it能够更好地平衡场景一致性和对象放置的自然性。

关键设计：Add-it的关键设计在于注意力权重的计算方式。作者使用了可学习的权重参数，这些参数可以通过反向传播进行优化。此外，作者还设计了一个新的评估指标“添加可供性基准”，用于评估对象放置的合理性。在实验中，作者使用了Stable Diffusion作为预训练扩散模型，并使用了Adam优化器进行训练。

🖼️ 关键图片

📊 实验亮点

Add-it在真实和生成图像插入基准测试中均取得了最先进的结果，优于现有的监督方法。在作者构建的“添加可供性基准”上，Add-it也表现出显著的优势，表明其能够更合理地放置对象。人类评估表明，在超过80%的情况下，用户更喜欢Add-it生成的结果。此外，Add-it在各种自动化指标方面也表现出改进。

🎯 应用场景

Add-it具有广泛的应用前景，例如图像编辑、虚拟现实、游戏开发等领域。它可以用于快速生成包含特定对象的图像，例如在室内场景中添加家具，或在风景照片中添加人物。该技术还可以用于增强现实应用，例如在用户拍摄的照片中添加虚拟对象，从而提供更丰富的交互体验。未来，该技术有望应用于更复杂的场景，例如视频编辑和三维建模。

📄 摘要（原文）

Adding Object into images based on text instructions is a challenging task in semantic image editing, requiring a balance between preserving the original scene and seamlessly integrating the new object in a fitting location. Despite extensive efforts, existing models often struggle with this balance, particularly with finding a natural location for adding an object in complex scenes. We introduce Add-it, a training-free approach that extends diffusion models' attention mechanisms to incorporate information from three key sources: the scene image, the text prompt, and the generated image itself. Our weighted extended-attention mechanism maintains structural consistency and fine details while ensuring natural object placement. Without task-specific fine-tuning, Add-it achieves state-of-the-art results on both real and generated image insertion benchmarks, including our newly constructed "Additing Affordance Benchmark" for evaluating object placement plausibility, outperforming supervised methods. Human evaluations show that Add-it is preferred in over 80% of cases, and it also demonstrates improvements in various automated metrics.

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理