HP-Edit: A Human-Preference Post-Training Framework for Image Editing

作者: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo

分类: cs.CV, cs.AI

发布日期: 2026-04-21

备注: Accepted by CVPR2026

💡 一句话要点

HP-Edit：面向图像编辑的人类偏好后训练框架，提升生成质量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 人类偏好 后训练 视觉大语言模型 强化学习 扩散模型 偏好学习

📋 核心要点

现有图像编辑方法依赖生成扩散模型，但缺乏针对多样化编辑需求的可扩展人类偏好数据集和框架。
HP-Edit框架利用人类偏好评分数据和视觉大语言模型构建自动评估器，并以此进行模型后训练。
实验表明，HP-Edit能显著提升图像编辑模型与人类偏好的一致性，并提供真实世界编辑性能评估基准。

📝 摘要（中文）

本文提出HP-Edit，一个面向人类偏好对齐编辑的后训练框架，并引入RealPref-50K数据集，该数据集包含八个常见任务，平衡了常见对象编辑的真实世界数据。HP-Edit利用少量人类偏好评分数据和一个预训练的视觉大语言模型(VLM)来开发HP-Scorer，一个自动的、与人类偏好对齐的评估器。HP-Scorer用于高效构建可扩展的偏好数据集，并作为后训练编辑模型的奖励函数。此外，本文还引入了RealPref-Bench，一个用于评估真实世界编辑性能的基准。大量实验表明，HP-Edit显著增强了Qwen-Image-Edit-2509等模型，使其输出更符合人类偏好。

🔬 方法详解

问题定义：现有图像编辑任务主要依赖于生成扩散模型，但缺乏有效利用人类反馈进行优化的方法。现有的强化学习方法（如Diffusion-DPO和Flow-GRPO）虽然提升了生成质量，但由于缺乏针对多样化编辑需求的可扩展人类偏好数据集和框架，难以直接应用于基于扩散模型的图像编辑任务。因此，如何高效地将人类偏好融入到图像编辑模型的训练中，使其输出更符合人类审美，是一个亟待解决的问题。

核心思路：HP-Edit的核心思路是利用少量的人类偏好数据，训练一个自动的、与人类偏好对齐的评估器（HP-Scorer），然后使用该评估器自动生成大规模的偏好数据集，并将其作为奖励函数，对预训练的图像编辑模型进行后训练。通过这种方式，可以将人类偏好有效地融入到模型的训练过程中，从而提升模型的生成质量和用户满意度。

技术框架：HP-Edit框架主要包含以下几个模块：1) RealPref-50K数据集：一个包含八个常见图像编辑任务的真实世界数据集，并标注了人类偏好评分。2) HP-Scorer：一个基于预训练视觉大语言模型（VLM）的自动评估器，用于预测图像编辑结果的人类偏好得分。3) 后训练模块：使用HP-Scorer生成的偏好数据集作为奖励函数，对预训练的图像编辑模型进行微调。4) RealPref-Bench：一个用于评估真实世界图像编辑性能的基准。整个流程是，首先利用少量人工标注数据训练HP-Scorer，然后利用HP-Scorer自动标注大量数据，最后使用这些数据对图像编辑模型进行后训练。

关键创新：HP-Edit的关键创新在于提出了一个自动的、与人类偏好对齐的评估器（HP-Scorer），并将其应用于图像编辑模型的后训练。与传统的强化学习方法相比，HP-Edit不需要人工参与奖励设计，而是通过学习人类偏好数据，自动生成奖励函数，从而大大降低了人工成本，并提高了训练效率。此外，HP-Edit还提出了RealPref-50K数据集和RealPref-Bench基准，为图像编辑领域的研究提供了新的资源。

关键设计：HP-Scorer的设计是关键。它利用预训练的视觉大语言模型（VLM）来理解图像内容和编辑指令，并预测人类对编辑结果的偏好。具体来说，HP-Scorer将编辑前后的图像和编辑指令作为输入，然后使用VLM提取图像和指令的特征，最后使用一个回归模型预测人类偏好得分。损失函数通常采用pairwise ranking loss，鼓励模型预测更符合人类偏好的图像具有更高的得分。后训练阶段，可以使用DPO (Direct Preference Optimization) 等算法，直接优化模型使其输出更符合人类偏好。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HP-Edit框架能够显著提升图像编辑模型与人类偏好的一致性。例如，在Qwen-Image-Edit-2509模型上应用HP-Edit后，其编辑结果与人类偏好的对齐程度得到了显著提升。此外，RealPref-Bench基准的评估结果也表明，HP-Edit能够有效地提升图像编辑模型的真实世界编辑性能。具体提升幅度未知，论文中未给出明确的量化指标。

🎯 应用场景

HP-Edit框架可广泛应用于各种图像编辑场景，例如人像美化、图像修复、风格迁移、物体替换等。通过与人类偏好对齐，可以显著提升图像编辑的质量和用户满意度。该研究成果有助于推动图像编辑技术的进步，并为相关应用提供更智能、更个性化的解决方案。未来，该框架可以扩展到视频编辑、3D内容生成等领域，具有广阔的应用前景。

📄 摘要（原文）

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理