MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
作者: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
分类: cs.GR, cs.CV, cs.LG
发布日期: 2025-05-09
备注: Accepted at SIGGRAPH 2025 [ACM Transactions on Graphics]; Project website: https://monetgpt.github.io
DOI: 10.1145/3730926
💡 一句话要点
MonetGPT:通过解谜训练增强多模态大语言模型图像修饰能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 图像修饰 程序化编辑 视觉推理 视觉谜题 可解释性 身份保留
📋 核心要点
- 现有图像编辑方法,如生成式编辑,容易改变原始对象身份,而传统程序化编辑对新手来说难以规划操作序列。
- MonetGPT通过训练MLLM解决视觉谜题,使其理解图像处理操作,进而规划和提出可理解的编辑序列。
- 实验表明,MonetGPT在可解释性和身份保留方面优于现有的生成式和其他程序化替代方案。
📝 摘要(中文)
图像修饰是原始照片后期处理中的一项重要任务。生成式编辑虽然为用户提供了一种新的工具,可以通过文本或笔画引导编辑,但容易以不可接受和不可预测的方式改变原始对象的身份。相比之下,传统的程序化编辑,如Gimp、Lightroom等照片编辑工具所支持的,虽然比较保守,但仍然受到专业人士的青睐。不幸的是,专业质量的修饰涉及许多单独的程序化编辑操作,这对于大多数新手来说是难以规划的。本文探讨了是否可以训练多模态大语言模型(MLLM)来评论原始照片,提出合适的补救措施,并最终使用给定的一组预先编写的程序化图像操作来实现这些措施。我们证明,通过训练 MLLM 解决专门设计的视觉谜题,可以使其首先了解底层图像处理操作。随后,这种具有操作意识的 MLLM 可以规划和提出编辑序列。为了方便训练,给定一组专家编辑的照片,我们通过程序化地操纵专家编辑来合成推理数据集,然后将预训练的 LLM 建立在视觉调整的基础上,以合成用于微调的推理。所提出的修饰操作在设计上是用户可以理解的,保留了对象细节和分辨率,并且可以选择覆盖。我们在各种测试示例中评估了我们的设置,并展示了在可解释性和身份保留方面优于现有生成式和其他程序化替代方案的优势。代码、数据、模型和补充结果可以在我们的项目网站 https://monetgpt.github.io 上找到。
🔬 方法详解
问题定义:论文旨在解决专业图像修饰需要大量程序化编辑操作,而现有方法要么容易改变图像内容,要么对新手不友好,难以规划编辑序列的问题。现有生成式方法缺乏可控性,容易改变图像主体,而传统程序化方法需要专业知识,难以自动化。
核心思路:论文的核心思路是训练一个多模态大语言模型(MLLM),使其能够理解图像处理操作,并根据图像内容和用户需求,自动规划和执行一系列程序化编辑操作。通过让MLLM学习解决视觉谜题,使其具备对图像操作的感知能力,从而能够更好地理解图像编辑任务。
技术框架:MonetGPT的整体框架包含以下几个主要阶段:1) 视觉谜题训练:训练MLLM解决专门设计的视觉谜题,使其了解底层图像处理操作。2) 推理数据集合成:利用专家编辑的照片,通过程序化操纵生成推理数据集,并使用预训练LLM生成相应的推理文本。3) 微调:使用合成的推理数据集微调MLLM,使其能够根据图像内容和用户需求,规划和提出编辑序列。4) 编辑执行:根据MLLM提出的编辑序列,执行相应的程序化图像操作。
关键创新:论文的关键创新在于:1) 提出了一种基于视觉谜题训练MLLM的方法,使其具备对图像操作的感知能力。2) 提出了一种自动合成推理数据集的方法,降低了训练成本。3) 将MLLM应用于图像修饰任务,实现了可解释和可控的图像编辑。与现有方法的本质区别在于,MonetGPT能够生成用户可理解的程序化编辑序列,并保留图像的原始细节和身份信息。
关键设计:论文的关键设计包括:1) 视觉谜题的设计,需要覆盖各种常见的图像处理操作。2) 推理数据集的合成方法,需要保证数据的质量和多样性。3) MLLM的架构选择和训练策略,需要保证模型的性能和泛化能力。论文中使用了预训练的LLM,并针对图像修饰任务进行了微调。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
MonetGPT在可解释性和身份保留方面优于现有的生成式和其他程序化替代方案。通过视觉谜题训练和推理数据集合成,MonetGPT能够生成用户可理解的程序化编辑序列,并保留图像的原始细节和身份信息。具体的性能数据和提升幅度在论文中未详细说明,属于未知信息。
🎯 应用场景
MonetGPT可应用于专业图像编辑、摄影后期处理、自动化图像优化等领域。它可以帮助用户快速、高效地完成图像修饰任务,提高图像质量,并降低专业图像编辑的门槛。未来,该技术有望应用于移动设备和云端平台,为用户提供更加便捷的图像编辑服务。
📄 摘要(原文)
Retouching is an essential task in post-manipulation of raw photographs. Generative editing, guided by text or strokes, provides a new tool accessible to users but can easily change the identity of the original objects in unacceptable and unpredictable ways. In contrast, although traditional procedural edits, as commonly supported by photoediting tools (e.g., Gimp, Lightroom), are conservative, they are still preferred by professionals. Unfortunately, professional quality retouching involves many individual procedural editing operations that is challenging to plan for most novices. In this paper, we ask if a multimodal large language model (MLLM) can be taught to critique raw photographs, suggest suitable remedies, and finally realize them with a given set of pre-authored procedural image operations. We demonstrate that MLLMs can be first made aware of the underlying image processing operations, by training them to solve specially designed visual puzzles. Subsequently, such an operation-aware MLLM can both plan and propose edit sequences. To facilitate training, given a set of expert-edited photos, we synthesize a reasoning dataset by procedurally manipulating the expert edits and then grounding a pretrained LLM on the visual adjustments, to synthesize reasoning for finetuning. The proposed retouching operations are, by construction, understandable by the users, preserve object details and resolution, and can be optionally overridden. We evaluate our setup on a variety of test examples and show advantages, in terms of explainability and identity preservation, over existing generative and other procedural alternatives. Code, data, models, and supplementary results can be found via our project website at https://monetgpt.github.io.