Towards Generalized Multi-Image Editing for Unified Multimodal Models

📄 arXiv: 2601.05572v1 📥 PDF

作者: Pengcheng Xu, Peng Tang, Donghao Luo, Xiaobin Hu, Weichu Cui, Qingdong He, Zhennan Chen, Jiangning Zhang, Charles Ling, Boyu Wang

分类: cs.CV

发布日期: 2026-01-09

备注: Project page: https://github.com/Pengchengpcx/MIE-UMM


💡 一句话要点

提出一种可扩展的多图像编辑框架,用于统一多模态模型,提升跨图像一致性和泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多图像编辑 统一多模态模型 潜在空间解耦 正弦索引编码 视觉一致性 图像生成 可扩展框架

📋 核心要点

  1. 现有统一多模态模型在处理多图输入时,难以保持视觉一致性,且容易产生视觉线索的歧义。
  2. 通过引入可学习的潜在分隔符和正弦索引编码,显式区分图像身份,实现解耦的条件控制和泛化能力。
  3. 实验结果表明,该方法在语义一致性、视觉保真度和跨图像集成方面均优于现有方法,验证了其有效性。

📝 摘要(中文)

统一多模态模型(UMMs)集成了多模态理解和生成能力,但在引用多个输入图像的细节时,它们在保持视觉一致性和消除视觉线索歧义方面存在局限性。本文提出了一种可扩展的多图像编辑框架,用于UMMs,该框架显式区分图像身份并泛化到可变的输入数量。算法上,引入了两项创新:1)可学习的潜在分隔符,在潜在空间中显式区分每个参考图像,实现准确和解耦的条件控制。2)正弦索引编码,为来自同一图像的视觉tokens分配连续的正弦索引嵌入,提供显式的图像身份,同时允许对可变数量的输入进行泛化和外推。为了方便训练和评估,我们使用逆数据集构建方法建立了一个高保真基准,以保证无伪影、可实现的输出。实验表明,在各种多图像编辑任务中,与先前的基线相比,在语义一致性、视觉保真度和跨图像集成方面有明显的改进,验证了我们在一致性和泛化能力方面的优势。

🔬 方法详解

问题定义:现有统一多模态模型在处理多张输入图像时,难以维持图像间的视觉一致性,并且容易混淆不同图像提供的视觉线索,导致编辑结果不准确。尤其是在输入图像数量变化时,模型的泛化能力会受到限制。

核心思路:本文的核心思路是通过显式地对不同输入图像进行区分,从而提升模型在多图像编辑任务中的性能。具体来说,通过引入可学习的潜在分隔符来区分不同图像在潜在空间中的表示,并使用正弦索引编码来为来自同一图像的视觉tokens分配唯一的身份标识。

技术框架:该框架主要包含两个核心模块:1) 可学习的潜在分隔符:用于在潜在空间中区分不同的输入图像,使得模型能够更好地理解每张图像的独立信息。2) 正弦索引编码:为来自同一图像的视觉tokens分配连续的正弦索引嵌入,从而为每个图像提供明确的身份信息,并支持对可变数量的输入进行泛化。整体流程是,首先将多张输入图像编码到潜在空间,然后利用潜在分隔符区分不同图像的表示,再通过正弦索引编码为视觉tokens添加身份信息,最后解码生成编辑后的图像。

关键创新:该论文的关键创新在于同时引入了可学习的潜在分隔符和正弦索引编码,从而实现了对多图像编辑任务的有效处理。与现有方法相比,该方法能够更准确地理解每张图像的独立信息,并更好地维持图像间的视觉一致性。此外,正弦索引编码的设计使得模型能够泛化到可变数量的输入图像,提高了模型的灵活性和实用性。

关键设计:可学习的潜在分隔符的具体实现方式未知,但推测可能使用了注意力机制或者其他能够区分不同图像特征的模块。正弦索引编码的具体实现方式是为每个图像的视觉tokens分配一个连续的正弦索引嵌入,该嵌入的频率和相位可能需要根据输入图像的数量进行调整。损失函数的设计可能包括重建损失、对抗损失以及用于鼓励潜在空间解耦的正则化项。

📊 实验亮点

实验结果表明,该方法在多图像编辑任务中取得了显著的性能提升。与现有基线方法相比,在语义一致性、视觉保真度和跨图像集成方面均有明显改善。通过逆数据集构建方法建立的高保真基准,保证了实验结果的可靠性和可重复性。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于图像编辑、内容创作、虚拟现实等领域。例如,用户可以使用多张参考图像来指导图像编辑,从而实现更精细、更个性化的编辑效果。该技术还有潜力应用于虚拟试穿、产品设计等领域,提升用户体验和创作效率。

📄 摘要(原文)

Unified Multimodal Models (UMMs) integrate multimodal understanding and generation, yet they are limited to maintaining visual consistency and disambiguating visual cues when referencing details across multiple input images. In this work, we propose a scalable multi-image editing framework for UMMs that explicitly distinguishes image identities and generalizes to variable input counts. Algorithmically, we introduce two innovations: 1) The learnable latent separators explicitly differentiate each reference image in the latent space, enabling accurate and disentangled conditioning. 2) The sinusoidal index encoding assigns visual tokens from the same image a continuous sinusoidal index embedding, which provides explicit image identity while allowing generalization and extrapolation on a variable number of inputs. To facilitate training and evaluation, we establish a high-fidelity benchmark using an inverse dataset construction methodology to guarantee artifact-free, achievable outputs. Experiments show clear improvements in semantic consistency, visual fidelity, and cross-image integration over prior baselines on diverse multi-image editing tasks, validating our advantages on consistency and generalization ability.