Group Editing : Edit Multiple Images in One Go
作者: Yue Ma, Xinyu Wang, Qianli Ma, Qinghe Wang, Mingzhe Zheng, Xiangpeng Yang, Hao Li, Chongbo Zhao, Jixuan Ying, Harry Yang, Hongyu Liu, Qifeng Chen
分类: cs.CV
发布日期: 2026-03-24
备注: Accepted to CVPR 2026
💡 一句话要点
提出GroupEditing框架,用于对一组相关图像进行一致性编辑。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 图像编辑 一致性编辑 跨视图一致性 几何对应 时序连贯性 伪视频 RoPE 图像组
📋 核心要点
- 现有方法难以在姿态、视角差异大的图像组中进行一致性编辑,缺乏可靠的跨图像对应关系。
- GroupEditing通过显式几何对应(VGGT)和隐式时间连贯性(伪视频+预训练视频模型)来建立图像间的关系。
- 实验表明,GroupEditing在视觉质量、跨视图一致性和语义对齐方面显著优于现有方法,并提出了新的数据集和基准。
📝 摘要(中文)
本文旨在解决对一组相关图像进行一致且统一修改的问题。由于这些图像在姿态、视角和空间布局上可能存在显著差异,因此这项任务极具挑战性。实现连贯的编辑需要建立图像之间可靠的对应关系,以便将修改精确地应用于语义对齐的区域。为此,我们提出了GroupEditing,这是一个新颖的框架,用于构建图像组内图像之间的显式和隐式关系。在显式方面,我们使用VGGT提取几何对应关系,从而提供基于视觉特征的空间对齐。在隐式方面,我们将图像组重新定义为伪视频,并利用预训练视频模型学习到的时间连贯性先验来捕获潜在关系。为了有效地融合这两种类型的对应关系,我们通过一种新颖的融合机制将来自VGGT的显式几何线索注入到视频模型中。为了支持大规模训练,我们构建了GroupEditData,这是一个新的数据集,包含大量图像组的高质量掩码和详细描述。此外,为了确保编辑过程中的身份保持,我们引入了一个增强对齐的RoPE模块,从而提高了模型在多个图像中保持一致外观的能力。最后,我们提出了GroupEditBench,这是一个专门用于评估组级别图像编辑有效性的基准。大量的实验表明,GroupEditing在视觉质量、跨视图一致性和语义对齐方面均优于现有方法。
🔬 方法详解
问题定义:论文旨在解决对一组具有不同姿态、视角和空间布局的图像进行一致性编辑的问题。现有方法难以建立图像之间的可靠对应关系,导致编辑结果不一致,语义对齐效果差。
核心思路:论文的核心思路是同时利用显式的几何对应关系和隐式的时序连贯性来建立图像组内图像之间的关系。通过显式几何对应关系实现空间对齐,通过隐式时序连贯性捕获潜在关系,从而实现一致性编辑。
技术框架:GroupEditing框架主要包含以下几个模块:1) 使用VGGT提取图像组的几何对应关系。2) 将图像组视为伪视频,利用预训练的视频模型提取时序连贯性特征。3) 通过融合机制将几何线索注入到视频模型中。4) 使用增强对齐的RoPE模块来保持编辑过程中的身份信息。
关键创新:论文的关键创新在于:1) 提出了一种融合显式几何对应和隐式时序连贯性的方法,用于建立图像组内图像之间的关系。2) 提出了增强对齐的RoPE模块,用于保持编辑过程中的身份信息。3) 构建了GroupEditData数据集和GroupEditBench基准,用于支持大规模训练和评估。
关键设计:论文的关键设计包括:1) 使用VGGT提取几何对应关系,VGGT是一种基于视觉特征的空间对齐方法。2) 将图像组视为伪视频,利用预训练的视频模型提取时序连贯性特征。3) 提出了一种融合机制,将VGGT提取的几何线索注入到视频模型中。4) 增强对齐的RoPE模块,通过引入对齐信息来提高RoPE模块的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GroupEditing在视觉质量、跨视图一致性和语义对齐方面均优于现有方法。具体来说,GroupEditing在GroupEditBench基准上取得了显著的性能提升,证明了其在组级别图像编辑方面的有效性。同时,消融实验验证了各个模块的有效性,例如,增强对齐的RoPE模块能够有效提高身份保持能力。
🎯 应用场景
该研究成果可应用于批量图像编辑、虚拟试穿、3D重建等领域。例如,用户可以对一组不同姿态的人像照片进行统一的服装更换,或者对同一场景的不同视角照片进行风格迁移,从而提高图像编辑的效率和质量,并为相关应用提供更逼真的效果。
📄 摘要(原文)
In this paper, we tackle the problem of performing consistent and unified modifications across a set of related images. This task is particularly challenging because these images may vary significantly in pose, viewpoint, and spatial layout. Achieving coherent edits requires establishing reliable correspondences across the images, so that modifications can be applied accurately to semantically aligned regions. To address this, we propose GroupEditing, a novel framework that builds both explicit and implicit relationships among images within a group. On the explicit side, we extract geometric correspondences using VGGT, which provides spatial alignment based on visual features. On the implicit side, we reformulate the image group as a pseudo-video and leverage the temporal coherence priors learned by pre-trained video models to capture latent relationships. To effectively fuse these two types of correspondences, we inject the explicit geometric cues from VGGT into the video model through a novel fusion mechanism. To support large-scale training, we construct GroupEditData, a new dataset containing high-quality masks and detailed captions for numerous image groups. Furthermore, to ensure identity preservation during editing, we introduce an alignment-enhanced RoPE module, which improves the model's ability to maintain consistent appearance across multiple images. Finally, we present GroupEditBench, a dedicated benchmark designed to evaluate the effectiveness of group-level image editing. Extensive experiments demonstrate that GroupEditing significantly outperforms existing methods in terms of visual quality, cross-view consistency, and semantic alignment.