MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance

📄 arXiv: 2602.07993v1 📥 PDF

作者: Xuehai Bai, Xiaoling Gu, Akide Liu, Hangjie Yuan, YiFan Zhang, Jack Ma

分类: cs.CV, cs.AI

发布日期: 2026-02-08

备注: Accepted by AAAI2026


💡 一句话要点

MCIE-E1:基于多模态LLM和空间引导的复杂指令图像编辑方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 复杂指令图像编辑 多模态大语言模型 空间感知 背景一致性 交叉注意力 图像生成 CIE-Bench

📋 核心要点

  1. 现有指令图像编辑方法难以处理复杂和组合指令,限制了实际应用。
  2. MCIE-E1通过空间感知和背景一致性交叉注意力模块,提升指令遵循和背景一致性。
  3. CIE-Bench基准测试表明,MCIE-E1在指令遵循方面优于现有方法,提升达23.96%。

📝 摘要(中文)

本文针对现有指令图像编辑方法在处理复杂指令和保持背景一致性方面的局限性,提出了MCIE-E1,一种基于多模态大语言模型驱动的复杂指令图像编辑方法。该方法集成了空间感知交叉注意力模块和背景一致性交叉注意力模块,前者通过在去噪过程中显式地将语义指令与空间区域对齐来增强指令遵循能力,后者保留未编辑区域的特征以保持背景一致性。为了有效训练,构建了一个专门的数据流水线,通过强大的MLLM进行细粒度的自动过滤,并结合严格的人工验证,以缓解复杂指令图像编辑数据集的稀缺性。此外,引入了CIE-Bench,一个新的基准测试,包含两个新的评估指标,以全面评估复杂指令图像编辑。实验结果表明,MCIE-E1在CIE-Bench上始终优于先前的最先进方法,在定量和定性评估中均取得了显著提升,指令遵循能力提高了23.96%。

🔬 方法详解

问题定义:现有基于指令的图像编辑方法在处理复杂指令时表现不足,尤其是在需要组合多个编辑操作或涉及图像特定区域的编辑时。此外,现有方法在编辑图像时,容易引入背景不一致的问题,即在未编辑区域产生不希望的变化或伪影。

核心思路:MCIE-E1的核心思路是利用多模态大语言模型(MLLM)的强大语义理解能力,结合空间信息,指导图像编辑过程,同时保持背景的一致性。通过显式地将指令与图像的空间区域对齐,并保留未编辑区域的特征,从而实现更精确、更自然的图像编辑。

技术框架:MCIE-E1的主要框架包括:1) 一个多模态大语言模型(MLLM),用于理解复杂的编辑指令;2) 一个空间感知交叉注意力模块,用于将指令中的语义信息与图像的空间区域对齐;3) 一个背景一致性交叉注意力模块,用于保留未编辑区域的特征,保持背景的一致性。整个流程可以概括为:输入图像和复杂指令 -> MLLM理解指令 -> 空间感知交叉注意力模块根据指令定位编辑区域 -> 背景一致性交叉注意力模块保持未编辑区域特征 -> 生成编辑后的图像。

关键创新:MCIE-E1的关键创新在于:1) 提出了空间感知交叉注意力模块,通过空间引导,显式地将语义指令与空间区域对齐,从而增强了指令遵循能力;2) 提出了背景一致性交叉注意力模块,通过保留未编辑区域的特征,有效地保持了背景的一致性;3) 构建了一个专门的数据流水线,用于生成包含复杂指令的图像编辑数据集,缓解了数据稀缺的问题。

关键设计:空间感知交叉注意力模块的设计关键在于如何有效地将指令中的语义信息与图像的空间区域对齐。具体实现可能包括使用注意力机制,根据指令的语义信息,对图像的不同区域进行加权,从而突出需要编辑的区域。背景一致性交叉注意力模块的设计关键在于如何有效地保留未编辑区域的特征。具体实现可能包括使用掩码(mask)机制,只对需要编辑的区域进行修改,而保持未编辑区域的特征不变。此外,损失函数的设计也至关重要,可能需要结合多种损失函数,例如内容损失、风格损失和对抗损失,以保证生成图像的质量和真实感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MCIE-E1在CIE-Bench基准测试中取得了显著的性能提升,在指令遵循方面优于现有最先进方法23.96%。实验结果表明,MCIE-E1能够更好地理解和执行复杂指令,生成更符合用户意图的编辑结果,同时保持背景的一致性,避免引入不希望的伪影。定性和定量结果均验证了MCIE-E1的有效性。

🎯 应用场景

MCIE-E1具有广泛的应用前景,包括:图像创意设计、电商产品图像编辑、社交媒体内容生成、虚拟现实/增强现实内容创作等。该方法可以帮助用户轻松地实现复杂的图像编辑任务,提高工作效率,并创造出更具吸引力的视觉内容。未来,该技术有望应用于更广泛的领域,例如医疗图像处理、遥感图像分析等。

📄 摘要(原文)

Recent advances in instruction-based image editing have shown remarkable progress. However, existing methods remain limited to relatively simple editing operations, hindering real-world applications that require complex and compositional instructions. In this work, we address these limitations from the perspectives of architectural design, data, and evaluation protocols. Specifically, we identify two key challenges in current models: insufficient instruction compliance and background inconsistency. To this end, we propose MCIE-E1, a Multimodal Large Language Model-Driven Complex Instruction Image Editing method that integrates two key modules: a spatial-aware cross-attention module and a background-consistent cross-attention module. The former enhances instruction-following capability by explicitly aligning semantic instructions with spatial regions through spatial guidance during the denoising process, while the latter preserves features in unedited regions to maintain background consistency. To enable effective training, we construct a dedicated data pipeline to mitigate the scarcity of complex instruction-based image editing datasets, combining fine-grained automatic filtering via a powerful MLLM with rigorous human validation. Finally, to comprehensively evaluate complex instruction-based image editing, we introduce CIE-Bench, a new benchmark with two new evaluation metrics. Experimental results on CIE-Bench demonstrate that MCIE-E1 consistently outperforms previous state-of-the-art methods in both quantitative and qualitative assessments, achieving a 23.96% improvement in instruction compliance.