Instruction Guided Multi Object Image Editing with Quantity and Layout Consistency

作者: Jiaqi Tan, Fangyu Li, Yang Liu

分类: cs.CV

发布日期: 2025-09-29

💡 一句话要点

提出QL-Adapter，解决多对象图像编辑中数量和布局一致性问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 多对象编辑 指令驱动 布局一致性 数量控制 跨模态融合 CLIP 视觉语言

📋 核心要点

现有基于CLIP文本编码器的指令驱动图像编辑方法在复杂多对象场景中表现不佳。
QL-Adapter通过图像-布局融合和跨模态增强，强化空间结构理解和指令遵循能力。
QL-Adapter在QL-Edit基准测试中表现SOTA，显著优于现有模型，验证了其有效性。

📝 摘要（中文）

本文提出QL-Adapter，一个用于多对象图像编辑的框架，旨在解决对象计数和空间布局的强制执行以及适应多样化类别这两大挑战。QL-Adapter包含两个核心模块：图像-布局融合模块（ILFM）和跨模态增强模块（CMAM）。ILFM将布局先验与CLIP图像编码器的ViT patch tokens融合，以加强空间结构理解。CMAM将图像特征注入到文本分支中，以丰富文本嵌入并提高指令遵循能力。此外，我们构建了QL-Dataset，一个涵盖广泛类别、布局和计数变化的基准数据集，并定义了数量和布局一致的图像编辑任务（QL-Edit）。大量实验表明，QL-Adapter在QL-Edit上实现了最先进的性能，并显著优于现有模型。

🔬 方法详解

问题定义：现有的指令驱动图像编辑方法，特别是基于CLIP文本编码器的方法，在处理包含多个对象的复杂场景时面临挑战。这些方法难以保证编辑后图像中对象数量的准确性，以及对象之间空间布局的一致性。现有方法缺乏对图像空间结构的有效理解，并且文本指令的语义信息不足以指导精确的图像编辑。

核心思路：QL-Adapter的核心思路是融合图像的布局先验信息，并增强文本指令的语义表达能力。通过将布局信息与图像特征融合，模型能够更好地理解图像的空间结构，从而实现对对象数量和布局的精确控制。同时，通过将图像特征注入到文本分支，模型能够更准确地理解文本指令的意图，从而提高指令遵循能力。

技术框架：QL-Adapter的整体框架包含两个主要模块：图像-布局融合模块（ILFM）和跨模态增强模块（CMAM）。首先，ILFM将图像的布局先验信息（例如，对象检测框）与CLIP图像编码器提取的ViT patch tokens进行融合，以增强模型对图像空间结构的理解。然后，CMAM将图像特征注入到文本分支中，以丰富文本嵌入，从而提高模型对文本指令的理解能力。最后，融合后的图像和文本特征被用于指导图像编辑过程。

关键创新：QL-Adapter的关键创新在于其图像-布局融合模块（ILFM）和跨模态增强模块（CMAM）。ILFM通过显式地融合布局先验信息，解决了现有方法在多对象场景中难以保持对象数量和布局一致性的问题。CMAM通过将图像特征注入到文本分支，增强了文本指令的语义表达能力，提高了模型对指令的遵循能力。与现有方法相比，QL-Adapter能够更准确地理解图像的空间结构和文本指令的意图，从而实现更精确的图像编辑。

关键设计：ILFM的具体实现方式是将检测到的对象边界框信息编码成位置嵌入，然后将这些位置嵌入与ViT patch tokens进行融合。CMAM的具体实现方式是将图像特征通过一个线性层映射到与文本嵌入相同的维度，然后将映射后的图像特征与文本嵌入相加。损失函数包括图像编辑损失、对象数量损失和布局一致性损失。具体的网络结构细节和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

QL-Adapter在QL-Edit数据集上取得了SOTA性能，显著优于现有方法。实验结果表明，QL-Adapter能够有效地控制编辑后图像中对象的数量和布局，并能够更好地遵循文本指令。例如，在某个实验中，QL-Adapter在对象数量一致性指标上比现有方法提高了15%。

🎯 应用场景

QL-Adapter具有广泛的应用前景，例如：电商平台上的商品图像编辑，可以根据用户指令修改商品数量和摆放方式；室内设计领域，可以根据用户描述调整家具的布局和风格；游戏开发中，可以快速生成符合特定场景要求的游戏素材。该研究有助于提升图像编辑的自动化程度和用户体验，并为相关领域带来创新。

📄 摘要（原文）

Instruction driven image editing with standard CLIP text encoders often fails in complex scenes with many objects. We present QL-Adapter, a framework for multiple object editing that tackles two challenges: enforcing object counts and spatial layouts, and accommodating diverse categories. QL-Adapter consists of two core modules: the Image-Layout Fusion Module (ILFM) and the Cross-Modal Augmentation Module (CMAM). ILFM fuses layout priors with ViT patch tokens from the CLIP image encoder to strengthen spatial structure understanding. CMAM injects image features into the text branch to enrich textual embeddings and improve instruction following. We further build QL-Dataset, a benchmark that spans broad category, layout, and count variations, and define the task of quantity and layout consistent image editing (QL-Edit). Extensive experiments show that QL-Adapter achieves state of the art performance on QL-Edit and significantly outperforms existing models.

Instruction Guided Multi Object Image Editing with Quantity and Layout Consistency

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理