EditRefiner: A Human-Aligned Agentic Framework for Image Editing Refinement

📄 arXiv: 2605.07457v1 📥 PDF

作者: Zitong Xu, Huiyu Duan, Yifei Nie, Mingda Du, Sijing Wu, Xiongkuo Min, Tianyi Zheng, Jian Zhang, Shusong Xu, Jinwei Chen, Bo Li, Guangtao Zhai

分类: cs.CV

发布日期: 2026-05-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出EditRefiner:一种基于人类反馈的智能体框架,用于实现精准的图像编辑修正

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 智能体框架 人类反馈对齐 视觉语言模型 细粒度修正 计算机视觉

📋 核心要点

  1. 现有TIE模型在细粒度编辑上常出现伪影与语义不一致,且现有修正方法因缺乏空间感知能力,难以实现精准的局部修复。
  2. 提出EditRefiner框架,通过感知、推理、行动与评估四个智能体,模拟人类的诊断与修正逻辑,实现闭环的自适应图像优化。
  3. 实验证明该方法在缺陷定位与人类感知对齐上表现卓越,显著提升了编辑结果的视觉质量与指令遵循能力,优于现有主流方法。

📝 摘要(中文)

文本引导图像编辑(TIE)模型虽进展显著,但生成图像常存在物体不自然、光照不匹配及意外篡改等细粒度缺陷。现有修正方法依赖昂贵的迭代重生成或空间感知能力较弱的视觉语言模型(VLM),易导致语义漂移及局部修正不可靠。为此,本文构建了包含1.5万张图像、6万个伪影区域标注及4.5万个平均意见分(MOS)的EditFHF-15K数据集。基于此,提出了EditRefiner,这是一个分层、可解释且与人类对齐的智能体框架,将后期修正重构为“感知-推理-行动-评估”的闭环过程。该框架包含感知、推理、行动和评估四个智能体,实现了局部重编辑。实验表明,EditRefiner在缺陷定位、诊断准确性及人类感知对齐方面均优于现有SOTA方法,为自校正、感知可靠的图像编辑确立了新范式。

🔬 方法详解

问题定义:论文旨在解决文本引导图像编辑(TIE)中普遍存在的细粒度缺陷问题,如物体畸变、光照不匹配及非预期的语义篡改。现有方法要么依赖高成本的全局重生成,要么因VLM空间感知不足导致修正不可靠。

核心思路:引入人类对齐的智能体范式,将图像修正过程建模为“感知-推理-行动-评估”的闭环。通过引入大规模人类反馈数据集EditFHF-15K,使模型能够像人类专家一样识别缺陷、分析原因并执行针对性修复。

技术框架:框架由四个核心智能体组成:感知智能体负责检测伪影与失败区域的显著性图;推理智能体基于感知线索进行诊断推理;行动智能体根据推理结果执行局部重编辑;评估智能体则对修正结果进行打分,决定是否需要进一步迭代。

关键创新:最大的创新在于将图像编辑修正从单纯的生成任务转变为基于诊断的智能体决策任务,通过引入人类反馈数据,实现了对编辑失败区域的精准定位与可解释性修正,有效避免了全局重生成带来的语义漂移。

关键设计:关键设计在于分层闭环架构,通过EditFHF-15K数据集对各智能体进行对齐训练,确保感知与推理过程符合人类视觉偏好,同时利用评估智能体作为停止准则,实现了修正过程的自动化与高效化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EditRefiner在EditFHF-15K数据集上的表现显著优于现有基线模型。实验结果显示,该框架在缺陷定位准确率、诊断逻辑一致性以及人类感知对齐度(MOS)上均达到行业领先水平。相比传统迭代重生成方法,该框架在保持语义完整性的同时,大幅减少了计算开销,确立了自校正图像编辑的新基准。

🎯 应用场景

该研究在内容创作、广告设计、数字媒体修复等领域具有广泛应用价值。通过自动化修正图像编辑中的细粒度缺陷,能够显著降低专业设计师的后期处理成本,提升AI生成内容的生产效率与视觉质量,推动生成式AI在工业级应用中的可靠性落地。

📄 摘要(原文)

Recent text-guided image editing (TIE) models have made remarkable progress, yet edited images still frequently suffer from fine-grained issues such as unnatural objects, lighting mismatch, and unexpected changes. Existing refinement approaches either rely on costly iterative regeneration or employ vision-language models (VLMs) with weak spatial grounding, often resulting in semantic drift and unreliable local corrections. To address these limitations, we first construct EditFHF-15K, a dataset of fine-grained human feedback for edited images, comprising (1) 15K images from 12 TIE models spanning 43 editing tasks, (2) 60K annotated artifact regions and 80K editing failure regions, each accompanied by textual reasoning, and (3) 45K mean opinion scores (MOSs) assessing perceptual quality, instruction following, and visual consistency. Based on EditFHF-15K, we propose EditRefiner, a hierarchical, interpretable, and human-aligned agentic framework that reformulates post-editing correction as a human-like perception-reasoning-action-evaluation loop. Specifically, we introduce: (1) a perception agent that detects contextual saliency maps of artifacts and editing failures, (2) a reasoning agent that interprets these perceptual cues to perform human-aligned diagnostic inference, (3) an action agent that uses the reasoning output to plan and execute localized re-editing, and (4) an evaluation agent that assesses the re-edited image and guides the action agent on whether further refinements are required. Extensive experiments demonstrate that EditRefiner consistently outperforms state-of-the-art methods in distortion localization, diagnose accuracy and human perception alignment, establishing a new paradigm for self-corrective and perceptually reliable image editing. The code is available at https://github.com/IntMeGroup/EditRefiner.