EditCaption: Human-Aligned Instruction Synthesis for Image Editing via Supervised Fine-Tuning and Direct Preference Optimization
作者: Xiangyuan Wang, Honghao Cai, Yunhao Bai, Tianze Zhou, Haohua Chen, Yao Hu, Xu Tang, Yibo Chen, Wei Zhu
分类: cs.CV, cs.AI
发布日期: 2026-04-09
💡 一句话要点
EditCaption:通过监督微调和直接偏好优化实现图像编辑的人工对齐指令合成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图像编辑 指令合成 视觉-语言模型 监督微调 直接偏好优化
📋 核心要点
- 现有指令引导图像编辑模型依赖高质量训练数据,但人工标注成本高昂,VLM自动合成指令存在方向混淆、视点模糊等问题。
- EditCaption通过两阶段训练流程,首先构建高质量SFT数据集,然后利用DPO进行人工偏好对齐,提升指令的准确性和可用性。
- 实验表明,EditCaption显著降低了指令中的错误率,提高了正确率,并在多个benchmark上超越了现有模型,包括Gemini-3-Pro和GPT-4.1。
📝 摘要(中文)
高质量的训练三元组(源-目标图像对以及精确的编辑指令)是扩展指令引导的图像编辑模型的关键瓶颈。视觉-语言模型(VLMs)被广泛用于自动指令合成,但我们发现图像对设置中存在三个系统性失效模式:方向不一致(例如,左右混淆)、视点模糊和精细属性描述不足。人工评估表明,来自强大基线VLM的指令中超过47%包含下游训练无法使用的严重错误。我们提出了EditCaption,这是一个可扩展的两阶段后训练流程,用于基于VLM的指令合成。第一阶段构建一个10万规模的监督微调(SFT)数据集,通过结合GLM自动标注、基于EditScore的过滤和人工改进,以提高空间、方向和属性级别的准确性。第二阶段收集1万个人工偏好对,针对三个失效模式,并应用直接偏好优化(DPO)以实现超越SFT的对齐。在Eval-400、ByteMorph-Bench和HQ-Edit上,微调后的Qwen3-VL模型优于开源基线;235B模型在Eval-400上达到4.712(Gemini-3-Pro为4.706,GPT-4.1为4.220,Kimi-K2.5为4.111),在ByteMorph-Bench上达到4.588(Gemini-3-Pro为4.522,GPT-4.1为3.412)。人工评估显示,严重错误从47.75%降至23%,正确率从41.75%升至66%。这项工作为图像编辑数据的可扩展、人工对齐的指令合成提供了一条切实可行的途径。
🔬 方法详解
问题定义:论文旨在解决指令引导图像编辑模型训练中,高质量训练数据匮乏的问题。现有方法依赖人工标注或直接使用视觉-语言模型(VLM)生成指令,但人工标注成本高昂,而VLM生成的指令常常存在方向不一致、视点模糊以及属性描述不足等问题,导致生成的指令质量不高,无法有效训练图像编辑模型。
核心思路:论文的核心思路是利用一个两阶段的后训练流程,首先通过监督微调(SFT)构建一个高质量的指令数据集,然后利用直接偏好优化(DPO)对模型进行人工对齐,从而提升指令的准确性和可用性。这种方法结合了自动标注和人工反馈的优点,能够在保证数据规模的同时,提高数据质量。
技术框架:EditCaption包含两个主要阶段:1) 监督微调(SFT):首先利用GLM自动标注生成初始指令,然后使用EditScore进行过滤,并进行人工修正,构建一个包含10万条数据的高质量SFT数据集。2) 直接偏好优化(DPO):收集1万个人工偏好对,针对方向不一致、视点模糊和属性描述不足等问题,利用DPO算法对模型进行优化,使其生成的指令更符合人类的偏好。
关键创新:论文的关键创新在于提出了一个可扩展的两阶段后训练流程,该流程能够有效地解决VLM在指令合成中存在的系统性问题。通过结合GLM自动标注、EditScore过滤和人工修正,构建了一个高质量的SFT数据集。此外,利用DPO算法进行人工偏好对齐,进一步提升了指令的准确性和可用性。
关键设计:EditScore用于评估生成指令与图像编辑结果的一致性,用于过滤低质量的自动标注数据。人工修正主要针对空间、方向和属性级别的错误进行。DPO算法使用人工偏好对作为训练数据,优化模型的策略,使其生成的指令更符合人类的偏好。具体的损失函数和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EditCaption显著提升了指令的质量。在Eval-400上,微调后的Qwen3-VL 235B模型达到了4.712分,超过了Gemini-3-Pro(4.706)和GPT-4.1(4.220)。在ByteMorph-Bench上,达到了4.588分,也超过了Gemini-3-Pro(4.522)和GPT-4.1(3.412)。人工评估显示,严重错误率从47.75%降至23%,正确率从41.75%升至66%。
🎯 应用场景
EditCaption的研究成果可应用于各种图像编辑任务,例如图像修复、风格迁移、对象替换等。通过生成高质量的编辑指令,可以显著提升图像编辑模型的性能和用户体验。该方法还可以扩展到其他视觉-语言任务中,例如视频编辑、3D内容生成等,具有广阔的应用前景。
📄 摘要(原文)
High-quality training triplets (source-target image pairs with precise editing instructions) are a critical bottleneck for scaling instruction-guided image editing models. Vision-language models (VLMs) are widely used for automated instruction synthesis, but we identify three systematic failure modes in image-pair settings: orientation inconsistency (e.g., left/right confusion), viewpoint ambiguity, and insufficient fine-grained attribute description. Human evaluation shows that over 47% of instructions from strong baseline VLMs contain critical errors unusable for downstream training. We propose EditCaption, a scalable two-stage post-training pipeline for VLM-based instruction synthesis. Stage 1 builds a 100K supervised fine-tuning (SFT) dataset by combining GLM automatic annotation, EditScore-based filtering, and human refinement for spatial, directional, and attribute-level accuracy. Stage 2 collects 10K human preference pairs targeting the three failure modes and applies direct preference optimization (DPO) for alignment beyond SFT alone. On Eval-400, ByteMorph-Bench, and HQ-Edit, fine-tuned Qwen3-VL models outperform open-source baselines; the 235B model reaches 4.712 on Eval-400 (vs. Gemini-3-Pro 4.706, GPT-4.1 4.220, Kimi-K2.5 4.111) and 4.588 on ByteMorph-Bench (vs. Gemini-3-Pro 4.522, GPT-4.1 3.412). Human evaluation shows critical errors falling from 47.75% to 23% and correctness rising from 41.75% to 66%. The work offers a practical path to scalable, human-aligned instruction synthesis for image editing data.