JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
作者: Yunlong Lin, Linqing Wang, Kunjie Lin, Zixu Lin, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding, Chunyu Wang, Qinglin Lu
分类: cs.CV
发布日期: 2025-11-28 (更新: 2025-12-04)
备注: 31 pages, 18 figures
💡 一句话要点
提出JarvisEvo,通过协同编辑器-评估器优化实现自进化图像编辑Agent
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像编辑Agent 自进化学习 多模态推理 协同优化 奖励利用 内容保真度 Adobe Lightroom
📋 核心要点
- 现有图像编辑Agent存在指令幻觉和奖励利用问题,限制了其性能和可靠性。
- JarvisEvo通过iMCoT推理增强指令理解,并利用SEPO框架实现无外部奖励的自进化。
- 实验表明,JarvisEvo在图像编辑任务上显著优于现有方法,尤其在内容保真度方面。
📝 摘要(中文)
基于Agent的图像编辑模型在交互体验、处理质量和创造性灵活性方面取得了显著进展。然而,仍然存在两个关键挑战:(1)指令幻觉,由于固有的信息瓶颈,纯文本思维链(CoT)推理无法完全避免事实错误;(2)奖励利用,针对静态奖励模型的动态策略优化允许Agent利用奖励函数中的缺陷。为了解决这些问题,我们提出了JarvisEvo,一个统一的图像编辑Agent,它通过迭代编辑、选择合适的工具、评估结果以及反思自己的决策来改进结果,从而模拟专家级人类设计师。JarvisEvo提供了三个关键优势:(1)一种交错多模态思维链(iMCoT)推理机制,可增强指令遵循和编辑质量;(2)一个协同编辑器-评估器策略优化(SEPO)框架,无需外部奖励即可实现自我改进,有效缓解奖励利用;(3)通过无缝集成Adobe Lightroom,支持全局和局部精细编辑。在ArtEdit-Bench上,JarvisEvo在保护性编辑指标上优于Nano-Banana,平均提升18.95%,包括像素级内容保真度方面显著提升44.96%。
🔬 方法详解
问题定义:现有基于Agent的图像编辑模型面临两个主要问题:一是指令幻觉,即Agent无法准确理解和执行复杂的编辑指令,导致编辑结果与用户意图不符;二是奖励利用,即Agent通过利用奖励函数的漏洞来获得高分,而不是真正改善图像质量。这些问题限制了Agent在实际应用中的效果。
核心思路:JarvisEvo的核心思路是模拟人类专家设计师的编辑流程,通过迭代编辑、评估和反思来逐步改进图像。它采用交错多模态思维链(iMCoT)推理来增强指令理解,并使用协同编辑器-评估器策略优化(SEPO)框架来实现无外部奖励的自进化。这种设计旨在提高Agent的编辑质量和鲁棒性,并避免奖励利用。
技术框架:JarvisEvo的整体框架包括三个主要模块:编辑器、评估器和反思模块。编辑器负责根据指令选择合适的编辑工具并执行编辑操作。评估器负责评估编辑结果的质量,并提供反馈。反思模块负责分析编辑过程中的错误,并调整编辑策略。这三个模块通过迭代交互来逐步改进图像质量。
关键创新:JarvisEvo的关键创新点在于iMCoT推理和SEPO框架。iMCoT推理通过交错使用文本和图像信息来增强指令理解,减少指令幻觉。SEPO框架通过协同优化编辑器和评估器,实现无外部奖励的自进化,避免奖励利用。这些创新使得JarvisEvo能够更准确地理解用户意图,并生成更高质量的编辑结果。
关键设计:iMCoT推理的关键设计在于将文本指令和图像信息交错输入到Agent中,使其能够同时利用两种模态的信息进行推理。SEPO框架的关键设计在于使用对抗训练来协同优化编辑器和评估器,使得评估器能够更准确地评估编辑结果的质量,并使得编辑器能够生成更高质量的编辑结果。此外,JarvisEvo还集成了Adobe Lightroom,以支持全局和局部精细编辑。
🖼️ 关键图片
📊 实验亮点
在ArtEdit-Bench数据集上,JarvisEvo在保护性编辑指标上优于Nano-Banana,平均提升18.95%,其中像素级内容保真度提升高达44.96%。这表明JarvisEvo在图像编辑质量和内容保真度方面具有显著优势。
🎯 应用场景
JarvisEvo具有广泛的应用前景,可用于自动化图像编辑、照片增强、创意设计等领域。它可以帮助用户快速高效地编辑图像,提高图像质量,并激发创作灵感。未来,JarvisEvo有望成为图像编辑领域的重要工具,并推动相关技术的发展。
📄 摘要(原文)
Agent-based editing models have substantially advanced interactive experiences, processing quality, and creative flexibility. However, two critical challenges persist: (1) instruction hallucination, text-only chain-of-thought (CoT) reasoning cannot fully prevent factual errors due to inherent information bottlenecks; (2) reward hacking, dynamic policy optimization against static reward models allows agents to exploit flaws in reward functions. To address these issues, we propose JarvisEvo, a unified image editing agent that emulates an expert human designer by iteratively editing, selecting appropriate tools, evaluating results, and reflecting on its own decisions to refine outcomes. JarvisEvo offers three key advantages: (1) an interleaved multimodal chain-of-thought (iMCoT) reasoning mechanism that enhances instruction following and editing quality; (2) a synergistic editor-evaluator policy optimization (SEPO) framework that enables self-improvement without external rewards, effectively mitigating reward hacking; and (3) support for both global and local fine-grained editing through seamless integration of Adobe Lightroom. On ArtEdit-Bench, JarvisEvo outperforms Nano-Banana by an average of 18.95% on preservative editing metrics, including a substantial 44.96% improvement in pixel-level content fidelity. Project page: https://jarvisevo.vercel.app/