HP-Edit: A Human-Preference Post-Training Framework for Image Editing

📄 arXiv: 2604.19406v1 📥 PDF

作者: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo

分类: cs.CV, cs.AI

发布日期: 2026-04-21

备注: Accepted by CVPR2026


💡 一句话要点

HP-Edit:面向图像编辑的人类偏好后训练框架,提升生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 人类偏好 后训练 视觉大语言模型 强化学习 扩散模型 偏好学习

📋 核心要点

  1. 现有图像编辑方法依赖生成扩散模型,但缺乏针对多样化编辑需求的可扩展人类偏好数据集和框架。
  2. HP-Edit框架利用人类偏好评分数据和视觉大语言模型构建自动评估器,并以此进行模型后训练。
  3. 实验表明,HP-Edit能显著提升图像编辑模型与人类偏好的一致性,并提供真实世界编辑性能评估基准。

📝 摘要(中文)

本文提出HP-Edit,一个面向人类偏好对齐编辑的后训练框架,并引入RealPref-50K数据集,该数据集包含八个常见任务,平衡了常见对象编辑的真实世界数据。HP-Edit利用少量人类偏好评分数据和一个预训练的视觉大语言模型(VLM)来开发HP-Scorer,一个自动的、与人类偏好对齐的评估器。HP-Scorer用于高效构建可扩展的偏好数据集,并作为后训练编辑模型的奖励函数。此外,本文还引入了RealPref-Bench,一个用于评估真实世界编辑性能的基准。大量实验表明,HP-Edit显著增强了Qwen-Image-Edit-2509等模型,使其输出更符合人类偏好。

🔬 方法详解

问题定义:现有图像编辑任务主要依赖于生成扩散模型,但缺乏有效利用人类反馈进行优化的方法。现有的强化学习方法(如Diffusion-DPO和Flow-GRPO)虽然提升了生成质量,但由于缺乏针对多样化编辑需求的可扩展人类偏好数据集和框架,难以直接应用于基于扩散模型的图像编辑任务。因此,如何高效地将人类偏好融入到图像编辑模型的训练中,使其输出更符合人类审美,是一个亟待解决的问题。

核心思路:HP-Edit的核心思路是利用少量的人类偏好数据,训练一个自动的、与人类偏好对齐的评估器(HP-Scorer),然后使用该评估器自动生成大规模的偏好数据集,并将其作为奖励函数,对预训练的图像编辑模型进行后训练。通过这种方式,可以将人类偏好有效地融入到模型的训练过程中,从而提升模型的生成质量和用户满意度。

技术框架:HP-Edit框架主要包含以下几个模块:1) RealPref-50K数据集:一个包含八个常见图像编辑任务的真实世界数据集,并标注了人类偏好评分。2) HP-Scorer:一个基于预训练视觉大语言模型(VLM)的自动评估器,用于预测图像编辑结果的人类偏好得分。3) 后训练模块:使用HP-Scorer生成的偏好数据集作为奖励函数,对预训练的图像编辑模型进行微调。4) RealPref-Bench:一个用于评估真实世界图像编辑性能的基准。整个流程是,首先利用少量人工标注数据训练HP-Scorer,然后利用HP-Scorer自动标注大量数据,最后使用这些数据对图像编辑模型进行后训练。

关键创新:HP-Edit的关键创新在于提出了一个自动的、与人类偏好对齐的评估器(HP-Scorer),并将其应用于图像编辑模型的后训练。与传统的强化学习方法相比,HP-Edit不需要人工参与奖励设计,而是通过学习人类偏好数据,自动生成奖励函数,从而大大降低了人工成本,并提高了训练效率。此外,HP-Edit还提出了RealPref-50K数据集和RealPref-Bench基准,为图像编辑领域的研究提供了新的资源。

关键设计:HP-Scorer的设计是关键。它利用预训练的视觉大语言模型(VLM)来理解图像内容和编辑指令,并预测人类对编辑结果的偏好。具体来说,HP-Scorer将编辑前后的图像和编辑指令作为输入,然后使用VLM提取图像和指令的特征,最后使用一个回归模型预测人类偏好得分。损失函数通常采用pairwise ranking loss,鼓励模型预测更符合人类偏好的图像具有更高的得分。后训练阶段,可以使用DPO (Direct Preference Optimization) 等算法,直接优化模型使其输出更符合人类偏好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HP-Edit框架能够显著提升图像编辑模型与人类偏好的一致性。例如,在Qwen-Image-Edit-2509模型上应用HP-Edit后,其编辑结果与人类偏好的对齐程度得到了显著提升。此外,RealPref-Bench基准的评估结果也表明,HP-Edit能够有效地提升图像编辑模型的真实世界编辑性能。具体提升幅度未知,论文中未给出明确的量化指标。

🎯 应用场景

HP-Edit框架可广泛应用于各种图像编辑场景,例如人像美化、图像修复、风格迁移、物体替换等。通过与人类偏好对齐,可以显著提升图像编辑的质量和用户满意度。该研究成果有助于推动图像编辑技术的进步,并为相关应用提供更智能、更个性化的解决方案。未来,该框架可以扩展到视频编辑、3D内容生成等领域,具有广阔的应用前景。

📄 摘要(原文)

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.