See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

作者: Jaehyun Park, Minyoung Ahn, Minkyu Kim, Jonghyun Lee, Jae-Gil Lee, Dongmin Park

分类: cs.CV, cs.AI

发布日期: 2026-02-24

💡 一句话要点

ArtiAgent：通过智能体数据合成，使VLMs和扩散模型理解视觉伪影

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视觉伪影 数据合成 扩散模型 智能体 图像质量

📋 核心要点

AI生成图像中的视觉伪影难以完全消除，严重影响图像质量，但人工标注伪影数据集成本高昂且难以扩展。
ArtiAgent通过感知、合成和管理三个智能体，自动生成包含伪影标注的图像数据集，降低了数据获取成本。
通过ArtiAgent合成了10万张图像，并在多种应用中验证了其有效性和通用性，为伪影检测和修复提供了数据基础。

📝 摘要（中文）

尽管扩散模型取得了显著进展，但AI生成的图像仍然经常包含影响真实感的视觉伪影。虽然更彻底的预训练和更大的模型可能会减少伪影，但无法保证完全消除，因此伪影缓解是一个至关重要的研究领域。以往的伪影感知方法依赖于人工标注的伪影数据集，成本高昂且难以扩展，因此需要一种自动化的方法来可靠地获取伪影标注数据集。本文提出了ArtiAgent，它可以高效地创建真实图像和伪影注入图像对。它包含三个智能体：一个感知智能体，用于识别和定位真实图像中的实体和子实体；一个合成智能体，通过扩散Transformer中的新型patch-wise嵌入操作，利用伪影注入工具引入伪影；以及一个管理智能体，用于过滤合成的伪影，并为每个实例生成局部和全局解释。使用ArtiAgent，我们合成了10万张带有丰富伪影注释的图像，并展示了其在各种应用中的有效性和通用性。

🔬 方法详解

问题定义：现有方法依赖人工标注的伪影数据集，成本高昂且难以扩展，无法满足大规模训练的需求。因此，需要一种自动化的方法来生成带有伪影标注的数据集，从而促进对视觉伪影的理解和修复。现有方法难以有效且高效地生成高质量的伪影数据，并且缺乏对伪影的解释能力。

核心思路：ArtiAgent的核心思路是利用智能体协作的方式，模拟人类专家标注伪影的过程，自动生成带有伪影标注的图像数据集。通过感知智能体识别图像中的实体，合成智能体注入伪影，管理智能体过滤和解释伪影，从而实现高效且可控的伪影数据生成。这种方法避免了人工标注的成本，并提供了对伪影的解释，有助于模型更好地理解和处理伪影。

技术框架：ArtiAgent包含三个主要模块：感知智能体、合成智能体和管理智能体。感知智能体负责识别和定位真实图像中的实体和子实体，为伪影注入提供基础。合成智能体利用扩散Transformer，通过patch-wise嵌入操作，将伪影注入到图像中。管理智能体负责过滤合成的伪影，并为每个实例生成局部和全局解释，确保数据集的质量和可用性。整个流程自动化运行，无需人工干预。

关键创新：ArtiAgent的关键创新在于利用智能体协作的方式，实现了自动化的伪影数据生成。与以往依赖人工标注的方法相比，ArtiAgent大大降低了数据获取的成本，并提高了数据生成的效率。此外，ArtiAgent还提供了对伪影的解释，有助于模型更好地理解和处理伪影。patch-wise嵌入操作是另一个创新点，它允许在图像的特定区域注入伪影，从而实现更精细的伪影控制。

关键设计：感知智能体使用预训练的目标检测模型（如YOLO）来识别图像中的实体和子实体。合成智能体使用扩散Transformer，通过修改图像的patch-wise嵌入来注入伪影。管理智能体使用一系列规则和模型来过滤合成的伪影，并生成局部和全局解释。损失函数的设计旨在确保生成的伪影具有真实感和多样性。具体参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

ArtiAgent成功合成了10万张带有丰富伪影注释的图像，并在多种应用中验证了其有效性和通用性。实验结果表明，使用ArtiAgent生成的数据集可以显著提高伪影检测和修复模型的性能。与使用人工标注的数据集相比，使用ArtiAgent生成的数据集在某些任务上取得了更好的结果，证明了其有效性和潜力。

🎯 应用场景

该研究成果可广泛应用于提升AI生成图像的质量，例如修复扩散模型生成的图像中的伪影，提高图像的真实感和美观度。此外，该方法还可以用于训练更鲁棒的计算机视觉模型，使其能够更好地处理包含伪影的图像。该研究对于提高AI生成内容的质量和可靠性具有重要意义，并可能推动相关领域的发展。

📄 摘要（原文）

Despite recent advances in diffusion models, AI generated images still often contain visual artifacts that compromise realism. Although more thorough pre-training and bigger models might reduce artifacts, there is no assurance that they can be completely eliminated, which makes artifact mitigation a highly crucial area of study. Previous artifact-aware methodologies depend on human-labeled artifact datasets, which are costly and difficult to scale, underscoring the need for an automated approach to reliably acquire artifact-annotated datasets. In this paper, we propose ArtiAgent, which efficiently creates pairs of real and artifact-injected images. It comprises three agents: a perception agent that recognizes and grounds entities and subentities from real images, a synthesis agent that introduces artifacts via artifact injection tools through novel patch-wise embedding manipulation within a diffusion transformer, and a curation agent that filters the synthesized artifacts and generates both local and global explanations for each instance. Using ArtiAgent, we synthesize 100K images with rich artifact annotations and demonstrate both efficacy and versatility across diverse applications. Code is available at link.

See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理