Marmot: Object-Level Self-Correction via Multi-Agent Reasoning
作者: Jiayang Sun, Hongbo Wang, Jie Cao, Huaibo Huang, Ran He
分类: cs.CV
发布日期: 2025-04-10 (更新: 2025-08-15)
💡 一句话要点
Marmot:提出一种基于多智能体推理的对象级自校正框架,提升多对象场景图像生成的准确性。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像生成 自校正 多智能体推理 对象级处理 扩散模型
📋 核心要点
- 扩散模型在复杂场景中生成图像时,难以保证对象计数、属性和空间关系的准确性。
- Marmot框架利用多智能体推理,将图像校正任务分解为对象级别的子任务,并行处理并避免累积误差。
- 实验结果表明,Marmot显著提升了图像生成中对象计数、属性分配和空间关系的准确性。
📝 摘要(中文)
扩散模型在生成高质量图像方面表现出色,但在复杂的多对象场景中,常常难以准确处理计数、属性和空间关系。本文提出Marmot,一种新颖且通用的框架,利用多智能体推理进行多对象自校正,以增强图像-文本对齐。首先,使用大型语言模型作为对象感知智能体,执行对象级别的分而治之策略,基于图像描述自动将自校正任务分解为以对象为中心的子任务。对于每个子任务,构建一个对象校正系统,该系统具有决策-执行-验证机制,专门针对单个对象的分割掩码或对象对的边界框进行操作,从而有效减轻对象间的干扰并提高编辑可靠性。为了有效地整合来自子任务的校正结果,同时避免多阶段编辑造成的累积失真,提出了一种像素域拼接平滑器,该平滑器采用掩码引导的两阶段潜在空间优化。这种创新实现了子任务的并行处理,显著提高了运行时效率,同时防止了失真累积。大量实验表明,Marmot显著提高了图像生成任务中对象计数、属性分配和空间关系的准确性。
🔬 方法详解
问题定义:现有方法在利用多模态大型语言模型(MLLM)进行图像自校正时,过度依赖MLLM的能力,无法充分考虑图像中的所有对象,并且在多轮编辑过程中容易产生累积失真。因此,需要一种更可靠、更高效的方法来提升多对象场景下图像生成的准确性。
核心思路:Marmot的核心思路是将复杂的图像自校正任务分解为多个对象级别的子任务,每个子任务由一个专门的智能体负责。通过分而治之的策略,降低了单个智能体的任务难度,并减少了对象之间的相互干扰。同时,采用像素域拼接平滑器来整合各个子任务的结果,避免了多阶段编辑带来的累积失真。
技术框架:Marmot框架主要包含两个阶段:对象感知任务分解和对象校正系统。首先,使用大型语言模型作为对象感知智能体,根据图像描述将自校正任务分解为以对象为中心的子任务。然后,为每个子任务构建一个对象校正系统,该系统包含决策、执行和验证三个模块,专门针对单个对象的分割掩码或对象对的边界框进行操作。最后,使用像素域拼接平滑器将各个子任务的结果整合起来,生成最终的校正图像。
关键创新:Marmot的关键创新在于多智能体推理和像素域拼接平滑器。多智能体推理实现了对象级别的分而治之,降低了任务难度并减少了对象间的干扰。像素域拼接平滑器通过掩码引导的两阶段潜在空间优化,有效地整合了各个子任务的结果,并避免了多阶段编辑带来的累积失真。
关键设计:对象校正系统中的决策模块负责判断是否需要对当前对象进行校正,执行模块负责根据决策结果对对象进行编辑,验证模块负责评估编辑结果的质量。像素域拼接平滑器采用掩码引导的两阶段潜在空间优化,首先在潜在空间中对各个对象的表示进行优化,然后在像素域中对优化后的表示进行拼接,从而生成最终的校正图像。具体参数设置和损失函数等细节在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Marmot框架在对象计数、属性分配和空间关系等指标上均取得了显著提升。与现有方法相比,Marmot能够更准确地生成多对象场景图像,并有效避免累积失真。具体的性能数据和对比基线在论文中有详细描述(未知),但总体而言,Marmot代表了图像自校正领域的一项重要进展。
🎯 应用场景
Marmot框架可应用于各种图像生成和编辑任务,例如文本到图像生成、图像修复、图像增强等。该框架能够提高生成图像的准确性和真实感,尤其是在多对象场景下,可以显著改善对象计数、属性分配和空间关系等方面的性能。未来,该技术有望在游戏开发、虚拟现实、电商等领域得到广泛应用。
📄 摘要(原文)
While diffusion models excel at generating high-quality images, they often struggle with accurate counting, attributes, and spatial relationships in complex multi-object scenes. One potential solution involves employing Multimodal Large Language Model (MLLM) as an AI agent to construct a self-correction framework. However, these approaches heavily rely on the capabilities of the MLLMs used, often fail to account for all objects within the image, and suffer from cumulative distortions during multi-round editing processes. To address these challenges, we propose Marmot, a novel and generalizable framework that leverages Multi-Agent Reasoning for Multi-Object Self-Correcting to enhance image-text alignment. First, we employ a large language model as an Object-Aware Agent to perform object-level divide-and-conquer, automatically decomposing self-correction tasks into object-centric subtasks based on image descriptions. For each subtask, we construct an Object Correction System featuring a decision-execution-verification mechanism that operates exclusively on a single object's segmentation mask or the bounding boxes of object pairs, effectively mitigating inter-object interference and enhancing editing reliability. To efficiently integrate correction results from subtasks while avoiding cumulative distortions from multi-stage editing, we propose a Pixel-Domain Stitching Smoother, which employs mask-guided two-stage latent space optimization. This innovation enables parallel processing of subtasks, significantly improving runtime efficiency while preventing distortion accumulation. Extensive experiments demonstrate that Marmot significantly improves accuracy in object counting, attribute assignment, and spatial relationships for image generation tasks.