EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing

📄 arXiv: 2603.14916v1 📥 PDF

作者: Zitong Xu, Huiyu Duan, Zhongpeng Ji, Xinyun Zhang, Yutao Liu, Xiongkuo Min, Ke Gu, Jian Zhang, Shusong Xu, Jinwei Chen, Bo Li, Guangtao Zhai

分类: cs.CV, cs.MM

发布日期: 2026-03-16

🔗 代码/项目: GITHUB


💡 一句话要点

提出EditHF-1M:百万级图像编辑人类偏好反馈数据集与奖励模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 人类偏好 强化学习 奖励模型 多模态学习

📋 核心要点

  1. 现有的文本引导图像编辑模型存在伪影、意外编辑和美学问题,缺乏可扩展的评估模型限制了人类反馈奖励模型的发展。
  2. 本文构建大规模人类偏好数据集EditHF-1M,并提出基于MLLM的评估模型EditHF,以提供与人类对齐的反馈。
  3. 通过强化学习,利用EditHF作为奖励信号优化图像编辑模型,实验表明该方法与人类偏好更一致,泛化性更强,性能提升显著。

📝 摘要(中文)

本文提出EditHF-1M,一个百万规模的图像编辑数据集,包含超过2900万个人类偏好对和14.8万个人类平均意见评分,从视觉质量、指令对齐和属性保持三个维度进行评估。基于EditHF-1M,本文提出EditHF,一个基于多模态大型语言模型(MLLM)的评估模型,为图像编辑提供与人类对齐的反馈。最后,本文引入EditHF-Reward,利用EditHF作为奖励信号,通过强化学习优化文本引导的图像编辑模型。大量实验表明,EditHF与人类偏好高度一致,并在其他数据集上表现出强大的泛化能力。使用EditHF-Reward微调Qwen-Image-Edit,实现了显著的性能提升,证明了EditHF作为奖励模型扩展图像编辑的能力。

🔬 方法详解

问题定义:文本引导的图像编辑(TIE)模型取得了显著进展,但编辑后的图像仍然存在伪影、意外编辑和不美观的内容等问题。现有的评估基准和方法缺乏可扩展性,难以训练出有效的人类反馈奖励模型,从而限制了TIE模型的进一步发展。

核心思路:本文的核心思路是构建一个大规模、高质量的人类偏好数据集,并基于此训练一个能够准确反映人类偏好的奖励模型。该奖励模型可以用于强化学习,从而引导TIE模型生成更符合人类期望的编辑结果。通过这种方式,可以有效地解决现有方法中存在的伪影、意外编辑和不美观等问题。

技术框架:整体框架包含三个主要部分:1) 构建大规模人类偏好数据集EditHF-1M;2) 基于EditHF-1M训练多模态大型语言模型(MLLM)评估模型EditHF;3) 利用EditHF作为奖励信号,通过强化学习优化TIE模型,得到EditHF-Reward。EditHF-1M数据集包含超过2900万个人类偏好对和14.8万个人类平均意见评分,从视觉质量、指令对齐和属性保持三个维度进行评估。EditHF模型基于MLLM,能够理解图像和文本信息,并给出与人类偏好一致的反馈。EditHF-Reward通过强化学习算法,利用EditHF的反馈信号来调整TIE模型的参数,使其生成更符合人类期望的编辑结果。

关键创新:主要创新点在于构建了大规模、高质量的人类偏好数据集EditHF-1M,并将其应用于训练奖励模型EditHF,进而通过强化学习优化TIE模型。与现有方法相比,EditHF-1M数据集规模更大,评估维度更全面,能够更准确地反映人类偏好。EditHF模型基于MLLM,具有更强的理解能力和泛化能力。EditHF-Reward通过强化学习,能够有效地利用人类偏好信息来指导TIE模型的训练,从而生成更符合人类期望的编辑结果。

关键设计:EditHF-1M数据集的构建过程中,采用了精细的数据标注流程和质量控制机制,确保数据的准确性和一致性。EditHF模型采用了预训练的多模态大型语言模型,并通过微调使其适应图像编辑任务。EditHF-Reward的强化学习算法采用了合适的奖励函数和策略梯度方法,以保证训练的稳定性和收敛性。具体的技术细节包括:数据集的标注规范、MLLM模型的选择和微调策略、强化学习算法的参数设置等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EditHF模型与人类偏好高度一致,并在其他数据集上表现出强大的泛化能力。使用EditHF-Reward微调Qwen-Image-Edit模型,在多个指标上实现了显著的性能提升。例如,在指令对齐度方面,提升幅度超过10%。这些结果证明了EditHF作为奖励模型扩展图像编辑的能力,并为未来的研究提供了有价值的参考。

🎯 应用场景

该研究成果可广泛应用于图像编辑、内容生成、人机交互等领域。通过利用人类偏好反馈,可以提升图像编辑模型的质量和用户满意度。该方法还可以扩展到其他生成模型,例如文本生成、视频生成等,从而实现更智能、更符合人类期望的内容创作。未来,该研究有望推动人工智能在创意领域的应用,并为用户提供更个性化、更便捷的内容创作工具。

📄 摘要(原文)

Recent text-guided image editing (TIE) models have achieved remarkable progress, while many edited images still suffer from issues such as artifacts, unexpected editings, unaesthetic contents. Although some benchmarks and methods have been proposed for evaluating edited images, scalable evaluation models are still lacking, which limits the development of human feedback reward models for image editing. To address the challenges, we first introduce \textbf{EditHF-1M}, a million-scale image editing dataset with over 29M human preference pairs and 148K human mean opinion ratings, both evaluated from three dimensions, \textit{i.e.}, visual quality, instruction alignment, and attribute preservation. Based on EditHF-1M, we propose \textbf{EditHF}, a multimodal large language model (MLLM) based evaluation model, to provide human-aligned feedback from image editing. Finally, we introduce \textbf{EditHF-Reward}, which utilizes EditHF as the reward signal to optimize the text-guided image editing models through reinforcement learning. Extensive experiments show that EditHF achieves superior alignment with human preferences and demonstrates strong generalization on other datasets. Furthermore, we fine-tune the Qwen-Image-Edit using EditHF-Reward, achieving significant performance improvements, which demonstrates the ability of EditHF to serve as a reward model to scale-up the image editing. Both the dataset and code will be released in our GitHub repository: https://github.com/IntMeGroup/EditHF.