LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps
作者: Andrey Palaev, Adil Khan, Syed M. Ahsan Kazmi
分类: cs.CV
发布日期: 2025-01-23
备注: Presented at BMVC 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出LLM引导的实例级图像操控方法,利用扩散U-Net交叉注意力图实现精准编辑。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 图像操控 实例分割 扩散模型 大型语言模型 交叉注意力 U-Net 图像编辑
📋 核心要点
- 现有文本到图像生成方法在实例级别图像属性控制方面存在灵活性和准确性不足的挑战。
- 该方法利用LLM和扩散U-Net的交叉注意力图,实现对生成图像中特定实例的精准操控。
- 该方法无需额外的微调或掩码等辅助信息,即可实现对图像实例的精细化编辑。
📝 摘要(中文)
本文提出了一种利用大型语言模型(LLM)、开放词汇检测器、交叉注意力图和扩散U-Net中间激活来实现实例级图像操控的流程。该方法旨在解决文本到图像合成中图像属性精确控制的难题,尤其是在实例级别。无需微调或辅助信息(如掩码),该方法能够检测提示中提及并在生成图像中存在的对象,从而实现精确操控。通过结合交叉注意力图,该方法在控制对象位置的同时,确保了操控图像的连贯性。
🔬 方法详解
问题定义:现有的文本到图像生成模型在图像属性控制方面面临挑战,尤其是在实例级别。用户难以精确地修改图像中特定对象的外观、位置等属性。现有方法通常需要大量的微调或依赖额外的输入信息,如对象掩码或边界框,这限制了其灵活性和易用性。
核心思路:该论文的核心思路是利用大型语言模型(LLM)理解用户指令,并结合扩散U-Net的交叉注意力图来定位和操控图像中的特定实例。通过分析交叉注意力图,可以确定图像中哪些区域与文本提示中的特定对象相关联,从而实现对这些区域的精确修改。
技术框架:该方法包含以下主要模块:1) 使用LLM解析用户指令并提取关键对象信息;2) 使用开放词汇检测器检测生成图像中的对象;3) 利用扩散U-Net生成图像,并提取其交叉注意力图;4) 基于LLM的指令和交叉注意力图,对图像中的特定实例进行操控;5) 将操控后的图像输入扩散U-Net,生成最终结果。
关键创新:该方法最重要的创新点在于利用扩散U-Net的交叉注意力图来实现实例级别的图像操控。与传统的基于掩码或边界框的方法相比,该方法无需额外的输入信息,而是通过分析模型内部的注意力机制来定位和操控对象。
关键设计:该方法的关键设计包括:1) 使用预训练的LLM来理解用户指令;2) 使用开放词汇检测器来检测图像中的对象;3) 设计合适的损失函数来优化扩散U-Net,使其能够生成具有良好交叉注意力的图像;4) 设计有效的图像操控策略,以确保操控后的图像具有视觉连贯性。
🖼️ 关键图片
📊 实验亮点
论文提出的方法无需微调或额外的辅助信息,即可实现对图像中特定实例的精确操控。通过结合LLM和扩散U-Net的交叉注意力图,该方法能够生成具有视觉连贯性的操控图像。代码已开源,方便研究者复现和进一步研究。
🎯 应用场景
该研究成果可应用于图像编辑、内容创作、虚拟现实等领域。例如,用户可以通过简单的文本指令,精确地修改图像中特定对象的外观、位置等属性,从而实现个性化的图像定制。该方法还可以用于生成具有特定风格或主题的图像,为内容创作者提供更强大的工具。
📄 摘要(原文)
The advancement of text-to-image synthesis has introduced powerful generative models capable of creating realistic images from textual prompts. However, precise control over image attributes remains challenging, especially at the instance level. While existing methods offer some control through fine-tuning or auxiliary information, they often face limitations in flexibility and accuracy. To address these challenges, we propose a pipeline leveraging Large Language Models (LLMs), open-vocabulary detectors, cross-attention maps and intermediate activations of diffusion U-Net for instance-level image manipulation. Our method detects objects mentioned in the prompt and present in the generated image, enabling precise manipulation without extensive training or input masks. By incorporating cross-attention maps, our approach ensures coherence in manipulated images while controlling object positions. Our method enables precise manipulations at the instance level without fine-tuning or auxiliary information such as masks or bounding boxes. Code is available at https://github.com/Palandr123/DiffusionU-NetLLM