GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset

📄 arXiv: 2507.21033v1 📥 PDF

作者: Yuhan Wang, Siwei Yang, Bingchen Zhao, Letian Zhang, Qing Liu, Yuyin Zhou, Cihang Xie

分类: cs.CV

发布日期: 2025-07-28


💡 一句话要点

提出GPT-IMAGE-EDIT-1.5M大规模图像编辑数据集,促进开源指令引导图像编辑研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 指令引导 数据集 GPT-4o 多模态学习

📋 核心要点

  1. 现有指令引导图像编辑模型依赖于封闭数据集,阻碍了开源研究的进展。
  2. 利用GPT-4o生成高质量图像编辑数据,包含指令、原始图像和编辑后图像三元组。
  3. 微调后的FluxKontext模型在多个基准测试中超越现有开源方法,接近专有模型性能。

📝 摘要(中文)

本文介绍GPT-IMAGE-EDIT-1.5M,一个公开可用的、大规模图像编辑语料库,包含超过150万个高质量的三元组(指令、源图像、编辑后的图像)。该数据集通过利用GPT-4o的多功能性,统一和改进了三个流行的图像编辑数据集:OmniEdit、HQ-Edit和UltraEdit。具体而言,该方法包括:1) 重新生成输出图像以提高视觉质量和指令对齐度;2) 选择性地重写提示以提高语义清晰度。为了验证数据集的有效性,在GPT-IMAGE-EDIT-1.5M上微调了先进的开源模型。实验结果表明,微调后的FluxKontext在包括GEdit-EN(7.24)、ImgEdit-Full(3.80)和Complex-Edit(8.78)在内的一系列基准测试中取得了极具竞争力的性能,在保持身份的同时,表现出更强的指令遵循能力和更高的感知质量。这些分数明显超过了所有先前发布的开源方法,并大大缩小了与领先的专有模型之间的差距。希望GPT-IMAGE-EDIT-1.5M的全面发布能够促进指令引导图像编辑方面的进一步开放研究。

🔬 方法详解

问题定义:现有指令引导图像编辑的研究受限于高质量、大规模数据集的匮乏,特别是开源数据集。虽然已经存在一些图像编辑数据集,但它们在图像质量、指令对齐以及语义清晰度方面存在不足,这限制了开源模型的发展,并使得与专有模型的差距难以缩小。

核心思路:本文的核心思路是利用大型多模态模型GPT-4o强大的图像生成和文本理解能力,系统性地构建一个高质量、大规模的图像编辑数据集。通过GPT-4o重新生成图像并优化指令,提升数据质量,从而为开源研究提供坚实的基础。这样设计的目的是为了克服现有数据集的局限性,并促进开源模型在指令遵循和图像质量方面取得显著进展。

技术框架:该方法主要包含两个阶段:数据生成和模型验证。在数据生成阶段,首先收集并整合现有的图像编辑数据集(OmniEdit、HQ-Edit和UltraEdit)。然后,利用GPT-4o对这些数据集中的图像进行重新生成,并对指令进行选择性重写,以提高图像质量和指令的语义清晰度。在模型验证阶段,使用生成的数据集对开源模型(例如FluxKontext)进行微调,并在多个基准测试上评估其性能。

关键创新:该论文的关键创新在于利用GPT-4o的大规模生成能力,系统性地提升现有图像编辑数据集的质量。通过重新生成图像和优化指令,显著提高了数据集的可用性和价值,为开源研究提供了新的资源。此外,该研究还展示了利用生成数据集微调开源模型,可以有效缩小与专有模型之间的性能差距。

关键设计:在数据生成方面,论文采用了提示工程技术,设计了合适的提示语来指导GPT-4o生成高质量的图像和指令。具体来说,针对不同的图像编辑任务,设计了不同的提示模板,并对GPT-4o的生成参数进行了调整,以获得最佳的生成效果。在模型微调方面,采用了常用的微调策略,并对学习率、batch size等超参数进行了优化,以获得最佳的模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在GPT-IMAGE-EDIT-1.5M数据集上微调的FluxKontext模型在GEdit-EN、ImgEdit-Full和Complex-Edit等基准测试中分别取得了7.24、3.80和8.78的优异成绩。这些分数显著超过了所有先前发布的开源方法,并大大缩小了与领先的专有模型之间的差距,证明了该数据集的有效性和价值。

🎯 应用场景

该研究成果可广泛应用于图像编辑、内容生成、虚拟现实等领域。高质量的图像编辑数据集能够促进相关算法的开发和应用,例如智能图像修复、风格迁移、图像增强等。此外,该数据集还可以用于训练更强大的多模态模型,从而实现更智能化的图像处理和理解。

📄 摘要(原文)

Recent advancements in large multimodal models like GPT-4o have set a new standard for high-fidelity, instruction-guided image editing. However, the proprietary nature of these models and their training data creates a significant barrier for open-source research. To bridge this gap, we introduce GPT-IMAGE-EDIT-1.5M, a publicly available, large-scale image-editing corpus containing more than 1.5 million high-quality triplets (instruction, source image, edited image). We systematically construct this dataset by leveraging the versatile capabilities of GPT-4o to unify and refine three popular image-editing datasets: OmniEdit, HQ-Edit, and UltraEdit. Specifically, our methodology involves 1) regenerating output images to enhance visual quality and instruction alignment, and 2) selectively rewriting prompts to improve semantic clarity. To validate the efficacy of our dataset, we fine-tune advanced open-source models on GPT-IMAGE-EDIT-1.5M. The empirical results are exciting, e.g., the fine-tuned FluxKontext achieves highly competitive performance across a comprehensive suite of benchmarks, including 7.24 on GEdit-EN, 3.80 on ImgEdit-Full, and 8.78 on Complex-Edit, showing stronger instruction following and higher perceptual quality while maintaining identity. These scores markedly exceed all previously published open-source methods and substantially narrow the gap to leading proprietary models. We hope the full release of GPT-IMAGE-EDIT-1.5M can help to catalyze further open research in instruction-guided image editing.