EditCaption: Human-Aligned Instruction Synthesis for Image Editing via Supervised Fine-Tuning and Direct Preference Optimization

作者: Xiangyuan Wang, Honghao Cai, Yunhao Bai, Tianze Zhou, Haohua Chen, Yao Hu, Xu Tang, Yibo Chen, Wei Zhu

分类: cs.CV, cs.AI

发布日期: 2026-04-09

💡 一句话要点

EditCaption：通过监督微调和直接偏好优化实现图像编辑的人工对齐指令合成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像编辑 指令合成 视觉-语言模型 监督微调 直接偏好优化

📋 核心要点

现有指令引导图像编辑模型依赖高质量训练数据，但人工标注成本高昂，VLM自动合成指令存在方向混淆、视点模糊等问题。
EditCaption通过两阶段训练流程，首先构建高质量SFT数据集，然后利用DPO进行人工偏好对齐，提升指令的准确性和可用性。
实验表明，EditCaption显著降低了指令中的错误率，提高了正确率，并在多个benchmark上超越了现有模型，包括Gemini-3-Pro和GPT-4.1。

📝 摘要（中文）

高质量的训练三元组（源-目标图像对以及精确的编辑指令）是扩展指令引导的图像编辑模型的关键瓶颈。视觉-语言模型（VLMs）被广泛用于自动指令合成，但我们发现图像对设置中存在三个系统性失效模式：方向不一致（例如，左右混淆）、视点模糊和精细属性描述不足。人工评估表明，来自强大基线VLM的指令中超过47%包含下游训练无法使用的严重错误。我们提出了EditCaption，这是一个可扩展的两阶段后训练流程，用于基于VLM的指令合成。第一阶段构建一个10万规模的监督微调（SFT）数据集，通过结合GLM自动标注、基于EditScore的过滤和人工改进，以提高空间、方向和属性级别的准确性。第二阶段收集1万个人工偏好对，针对三个失效模式，并应用直接偏好优化（DPO）以实现超越SFT的对齐。在Eval-400、ByteMorph-Bench和HQ-Edit上，微调后的Qwen3-VL模型优于开源基线；235B模型在Eval-400上达到4.712（Gemini-3-Pro为4.706，GPT-4.1为4.220，Kimi-K2.5为4.111），在ByteMorph-Bench上达到4.588（Gemini-3-Pro为4.522，GPT-4.1为3.412）。人工评估显示，严重错误从47.75%降至23%，正确率从41.75%升至66%。这项工作为图像编辑数据的可扩展、人工对齐的指令合成提供了一条切实可行的途径。

🔬 方法详解

问题定义：论文旨在解决指令引导图像编辑模型训练中，高质量训练数据匮乏的问题。现有方法依赖人工标注或直接使用视觉-语言模型（VLM）生成指令，但人工标注成本高昂，而VLM生成的指令常常存在方向不一致、视点模糊以及属性描述不足等问题，导致生成的指令质量不高，无法有效训练图像编辑模型。

核心思路：论文的核心思路是利用一个两阶段的后训练流程，首先通过监督微调（SFT）构建一个高质量的指令数据集，然后利用直接偏好优化（DPO）对模型进行人工对齐，从而提升指令的准确性和可用性。这种方法结合了自动标注和人工反馈的优点，能够在保证数据规模的同时，提高数据质量。

技术框架：EditCaption包含两个主要阶段：1) 监督微调（SFT）：首先利用GLM自动标注生成初始指令，然后使用EditScore进行过滤，并进行人工修正，构建一个包含10万条数据的高质量SFT数据集。2) 直接偏好优化（DPO）：收集1万个人工偏好对，针对方向不一致、视点模糊和属性描述不足等问题，利用DPO算法对模型进行优化，使其生成的指令更符合人类的偏好。

关键创新：论文的关键创新在于提出了一个可扩展的两阶段后训练流程，该流程能够有效地解决VLM在指令合成中存在的系统性问题。通过结合GLM自动标注、EditScore过滤和人工修正，构建了一个高质量的SFT数据集。此外，利用DPO算法进行人工偏好对齐，进一步提升了指令的准确性和可用性。

关键设计：EditScore用于评估生成指令与图像编辑结果的一致性，用于过滤低质量的自动标注数据。人工修正主要针对空间、方向和属性级别的错误进行。DPO算法使用人工偏好对作为训练数据，优化模型的策略，使其生成的指令更符合人类的偏好。具体的损失函数和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EditCaption显著提升了指令的质量。在Eval-400上，微调后的Qwen3-VL 235B模型达到了4.712分，超过了Gemini-3-Pro（4.706）和GPT-4.1（4.220）。在ByteMorph-Bench上，达到了4.588分，也超过了Gemini-3-Pro（4.522）和GPT-4.1（3.412）。人工评估显示，严重错误率从47.75%降至23%，正确率从41.75%升至66%。

🎯 应用场景

EditCaption的研究成果可应用于各种图像编辑任务，例如图像修复、风格迁移、对象替换等。通过生成高质量的编辑指令，可以显著提升图像编辑模型的性能和用户体验。该方法还可以扩展到其他视觉-语言任务中，例如视频编辑、3D内容生成等，具有广阔的应用前景。

📄 摘要（原文）

High-quality training triplets (source-target image pairs with precise editing instructions) are a critical bottleneck for scaling instruction-guided image editing models. Vision-language models (VLMs) are widely used for automated instruction synthesis, but we identify three systematic failure modes in image-pair settings: orientation inconsistency (e.g., left/right confusion), viewpoint ambiguity, and insufficient fine-grained attribute description. Human evaluation shows that over 47% of instructions from strong baseline VLMs contain critical errors unusable for downstream training. We propose EditCaption, a scalable two-stage post-training pipeline for VLM-based instruction synthesis. Stage 1 builds a 100K supervised fine-tuning (SFT) dataset by combining GLM automatic annotation, EditScore-based filtering, and human refinement for spatial, directional, and attribute-level accuracy. Stage 2 collects 10K human preference pairs targeting the three failure modes and applies direct preference optimization (DPO) for alignment beyond SFT alone. On Eval-400, ByteMorph-Bench, and HQ-Edit, fine-tuned Qwen3-VL models outperform open-source baselines; the 235B model reaches 4.712 on Eval-400 (vs. Gemini-3-Pro 4.706, GPT-4.1 4.220, Kimi-K2.5 4.111) and 4.588 on ByteMorph-Bench (vs. Gemini-3-Pro 4.522, GPT-4.1 3.412). Human evaluation shows critical errors falling from 47.75% to 23% and correctness rising from 41.75% to 66%. The work offers a practical path to scalable, human-aligned instruction synthesis for image editing data.

EditCaption: Human-Aligned Instruction Synthesis for Image Editing via Supervised Fine-Tuning and Direct Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理