In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation
作者: Yu Xu, Fan Tang, You Wu, Lin Gao, Oliver Deussen, Hongbin Yan, Jintao Li, Juan Cao, Tong-Yee Lee
分类: cs.CV, cs.AI, cs.GR
发布日期: 2025-05-26
💡 一句话要点
In-Context Brush:基于上下文学习的零样本定制化对象插入方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 零样本学习 图像修复 扩散模型 多模态生成
📋 核心要点
- 现有方法在定制化对象插入时,难以保证对象的高保真度,且与用户文本提示的意图对齐效果不佳。
- In-Context Brush 框架将对象插入任务转化为上下文学习问题,利用对象图像和文本提示作为跨模态演示。
- 通过双层潜在空间操作,动态调整注意力机制,实现更好的身份保持、文本对齐和图像质量。
📝 摘要(中文)
扩散模型在多模态引导的视觉生成方面取得了显著进展,使得能够通过文本提示将用户指定的对象无缝地“刷入”到给定的图像中。然而,现有方法通常难以高保真地插入定制化对象,并使结果与用户的文本提示意图对齐。本文提出了“In-Context Brush”,这是一个零样本框架,通过在上下文学习的范式中重新定义任务来实现定制化对象插入。在不失一般性的前提下,我们将对象图像和文本提示表示为跨模态的演示,并将带有掩码区域的目标图像作为查询。目标是在不进行模型微调的情况下,使用与文本提示对齐的对象来修复目标图像。基于预训练的MMDiT修复网络,我们通过双层潜在空间操作执行测试时增强:在每个注意力头内进行“潜在特征转移”,动态地转移注意力输出以反映期望的对象语义;以及跨不同头进行“注意力重加权”,通过差异化的注意力优先级来放大提示的可控性。大量的实验和应用表明,与现有的最先进方法相比,我们的方法在身份保持、文本对齐和图像质量方面都取得了优异的性能,而无需专门的训练或额外的数据收集。
🔬 方法详解
问题定义:论文旨在解决定制化对象插入问题,即如何根据用户提供的对象图像和文本提示,将该对象无缝地插入到目标图像的指定区域。现有方法通常需要针对特定对象进行训练或微调,泛化能力有限,且难以保证插入对象与文本提示的一致性。
核心思路:论文的核心思路是将定制化对象插入问题转化为上下文学习问题。通过将对象图像和文本提示视为上下文信息,模型可以学习如何在目标图像中插入与上下文相关的对象,而无需进行额外的训练。这种方法利用了预训练扩散模型的强大生成能力和上下文学习的泛化能力。
技术框架:In-Context Brush 框架基于预训练的 MMDiT (Multi-Modal Diffusion Transformer) 修复网络。该框架包含以下主要步骤:1) 将对象图像和文本提示编码为跨模态的上下文信息;2) 将目标图像的掩码区域作为查询;3) 利用双层潜在空间操作增强模型性能,包括 intra-head 的“潜在特征转移”和 inter-head 的“注意力重加权”;4) 使用扩散模型生成最终的修复图像。
关键创新:该方法最重要的创新点在于将上下文学习引入到定制化对象插入任务中,实现了零样本的插入能力。通过双层潜在空间操作,模型能够更好地理解上下文信息,并生成与文本提示对齐的高质量图像。与现有方法相比,该方法无需针对特定对象进行训练,具有更好的泛化能力和可控性。
关键设计:intra-head 的“潜在特征转移”通过动态调整注意力输出,使模型更加关注与目标对象相关的特征。具体来说,通过计算目标对象和上下文信息之间的相似度,调整注意力权重,从而实现特征转移。inter-head 的“注意力重加权”通过调整不同注意力头的权重,使模型更加关注与文本提示相关的特征。具体来说,通过计算每个注意力头与文本提示之间的相关性,调整注意力头的权重,从而实现提示可控性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,In-Context Brush 在身份保持、文本对齐和图像质量方面均优于现有方法。与 ControlNet 等基线方法相比,该方法在定性和定量评估中均取得了显著提升。例如,在用户偏好研究中,In-Context Brush 的结果更受用户青睐,表明其生成的图像更符合用户的期望。
🎯 应用场景
该研究成果可广泛应用于图像编辑、内容创作、虚拟现实等领域。例如,用户可以轻松地将自己喜欢的物品或人物插入到照片中,创作个性化的图像内容。在虚拟现实中,该技术可以用于生成逼真的虚拟场景,提升用户体验。此外,该技术还可以应用于广告设计、产品展示等领域,具有广阔的应用前景。
📄 摘要(原文)
Recent advances in diffusion models have enhanced multimodal-guided visual generation, enabling customized subject insertion that seamlessly "brushes" user-specified objects into a given image guided by textual prompts. However, existing methods often struggle to insert customized subjects with high fidelity and align results with the user's intent through textual prompts. In this work, we propose "In-Context Brush", a zero-shot framework for customized subject insertion by reformulating the task within the paradigm of in-context learning. Without loss of generality, we formulate the object image and the textual prompts as cross-modal demonstrations, and the target image with the masked region as the query. The goal is to inpaint the target image with the subject aligning textual prompts without model tuning. Building upon a pretrained MMDiT-based inpainting network, we perform test-time enhancement via dual-level latent space manipulation: intra-head "latent feature shifting" within each attention head that dynamically shifts attention outputs to reflect the desired subject semantics and inter-head "attention reweighting" across different heads that amplifies prompt controllability through differential attention prioritization. Extensive experiments and applications demonstrate that our approach achieves superior identity preservation, text alignment, and image quality compared to existing state-of-the-art methods, without requiring dedicated training or additional data collection.