HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing
作者: Jinbin Bai, Wei Chow, Ling Yang, Xiangtai Li, Juncheng Li, Hanwang Zhang, Shuicheng Yan
分类: cs.CV, cs.GR
发布日期: 2024-12-05 (更新: 2025-05-06)
备注: Accepted to CVPR 2025 AI for Content Creation (AI4CC) Workshop. Codes and Supplementary Material: https://github.com/viiika/HumanEdit
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
HumanEdit:高质量人工标注指令图像编辑数据集,提升编辑精度和多样性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 图像编辑 指令驱动 数据集 人工标注 深度学习
📋 核心要点
- 现有图像编辑数据集缺乏足够的人工反馈,难以与人类偏好对齐,限制了编辑效果。
- HumanEdit通过人工标注和反馈构建高质量数据集,包含多种编辑指令和高分辨率图像,提升编辑精度。
- 该数据集包含5751张图像,覆盖六种编辑类型,并提供掩码和详细指令,为图像编辑研究提供基准。
📝 摘要(中文)
本文提出了HumanEdit,一个高质量、人工奖励的图像编辑数据集,专为基于指令的图像编辑而设计,旨在通过开放形式的语言指令实现精确和多样化的图像操作。以往的大规模编辑数据集通常包含极少的人工反馈,导致数据集与人类偏好对齐方面存在挑战。HumanEdit通过雇佣人工标注员构建数据对和管理员提供反馈来弥补这一差距。经过精心策划,HumanEdit包含5,751张图像,耗费超过2,500小时的人工,确保了广泛图像编辑任务的准确性和可靠性。该数据集包括六种不同的编辑指令类型:动作、添加、计数、关系、移除和替换,涵盖了广泛的真实场景。所有图像都附带掩码,并且对于数据的子集,确保指令足够详细以支持无掩码编辑。此外,HumanEdit提供全面的多样性和来自各个领域的高分辨率1024x1024内容,为指令图像编辑数据集建立了一个新的通用基准。为了推进未来的研究并建立图像编辑领域的评估基准,我们在https://huggingface.co/datasets/BryanW/HumanEdit发布了HumanEdit。
🔬 方法详解
问题定义:现有指令驱动的图像编辑数据集通常缺乏足够的人工反馈,导致模型难以学习符合人类偏好的编辑方式。数据集的质量直接影响模型的性能,低质量的数据集会限制模型生成高质量、符合用户意图的编辑结果。此外,现有数据集可能在编辑指令的多样性和图像分辨率方面存在不足,限制了模型在实际应用中的泛化能力。
核心思路:HumanEdit的核心思路是通过引入大量的人工标注和反馈来构建高质量的图像编辑数据集。通过人工标注,可以确保数据集中的编辑指令和图像修改是准确和符合人类意图的。管理员的反馈则可以进一步提高数据集的质量,确保数据集能够反映人类的偏好。这种人工参与的方式可以弥补现有数据集的不足,提高模型的性能。
技术框架:HumanEdit数据集的构建过程包含四个主要阶段:数据收集、指令生成、图像编辑和质量评估。在数据收集阶段,从多个来源收集高质量的图像。在指令生成阶段,人工标注员根据图像的内容生成编辑指令,涵盖六种不同的类型。在图像编辑阶段,使用图像编辑工具根据指令修改图像。在质量评估阶段,管理员对编辑后的图像进行评估,并提供反馈,以确保数据集的质量。
关键创新:HumanEdit的关键创新在于其高度的人工参与和反馈机制。与以往的大规模数据集相比,HumanEdit更加注重数据集的质量和与人类偏好的对齐。通过人工标注和反馈,可以确保数据集中的编辑指令和图像修改是准确和符合人类意图的。此外,HumanEdit还提供了多种类型的编辑指令和高分辨率的图像,为图像编辑研究提供了更丰富的资源。
关键设计:HumanEdit数据集包含5,751张图像,分辨率为1024x1024。数据集包含六种不同的编辑指令类型:动作、添加、计数、关系、移除和替换。所有图像都附带掩码,并且对于数据的子集,确保指令足够详细以支持无掩码编辑。数据集的构建过程耗费超过2,500小时的人工。数据集在Hugging Face上公开提供。
🖼️ 关键图片
📊 实验亮点
HumanEdit数据集包含5,751张高分辨率(1024x1024)图像,并提供六种不同类型的编辑指令。该数据集的构建耗费超过2,500小时的人工,确保了数据集的质量和可靠性。与现有数据集相比,HumanEdit更加注重数据集与人类偏好的对齐,为图像编辑研究提供了一个高质量的基准。
🎯 应用场景
HumanEdit数据集可应用于各种图像编辑任务,例如图像修复、风格迁移、目标移除和图像增强。该数据集可以用于训练和评估图像编辑模型,提高模型的编辑精度和多样性。此外,HumanEdit还可以用于开发新的图像编辑算法和技术,推动图像编辑领域的发展。该数据集的发布将促进指令驱动图像编辑的进步。
📄 摘要(原文)
We present HumanEdit, a high-quality, human-rewarded dataset specifically designed for instruction-guided image editing, enabling precise and diverse image manipulations through open-form language instructions. Previous large-scale editing datasets often incorporate minimal human feedback, leading to challenges in aligning datasets with human preferences. HumanEdit bridges this gap by employing human annotators to construct data pairs and administrators to provide feedback. With meticulously curation, HumanEdit comprises 5,751 images and requires more than 2,500 hours of human effort across four stages, ensuring both accuracy and reliability for a wide range of image editing tasks. The dataset includes six distinct types of editing instructions: Action, Add, Counting, Relation, Remove, and Replace, encompassing a broad spectrum of real-world scenarios. All images in the dataset are accompanied by masks, and for a subset of the data, we ensure that the instructions are sufficiently detailed to support mask-free editing. Furthermore, HumanEdit offers comprehensive diversity and high-resolution $1024 \times 1024$ content sourced from various domains, setting a new versatile benchmark for instructional image editing datasets. With the aim of advancing future research and establishing evaluation benchmarks in the field of image editing, we release HumanEdit at https://huggingface.co/datasets/BryanW/HumanEdit.