LEGION: Learning to Ground and Explain for Synthetic Image Detection

作者: Hengrui Kang, Siwei Wen, Zichen Wen, Junyan Ye, Weijia Li, Peilin Feng, Baichuan Zhou, Bin Wang, Dahua Lin, Linfeng Zhang, Conghui He

分类: cs.CV

发布日期: 2025-03-19

备注: Project Page: https://opendatalab.github.io/LEGION

💡 一句话要点

提出LEGION框架，用于合成图像检测，并具备伪造区域定位与解释能力。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 合成图像检测 多模态学习 大语言模型 图像分割 可解释性 图像伪造 数据集 图像优化

📋 核心要点

现有合成图像检测方法缺乏工件级别的文本解释性，且数据集存在生成器过时和标注不足的问题。
LEGION框架基于多模态大语言模型，集成了工件检测、分割和解释功能，可用于图像伪造分析。
实验表明，LEGION在多个基准测试中优于现有方法，并且能够指导生成更高质量的图像。

📝 摘要（中文）

生成技术的快速发展带来便利的同时也引发了社会问题。作为防御手段，现有的合成图像检测方法通常缺乏工件级别的文本可解释性，并且过度关注图像篡改检测。此外，当前的数据集通常存在生成器过时和缺乏细粒度注释的问题。本文提出了SynthScars，一个高质量、多样化的数据集，包含12236张完全合成的图像，并由人类专家进行标注。它具有4种不同的图像内容类型、3种工件类别，以及像素级分割、详细的文本解释和工件类别标签等细粒度注释。此外，本文提出了一种基于多模态大型语言模型（MLLM）的图像伪造分析框架LEGION，它集成了工件检测、分割和解释功能。在此基础上，进一步探索了LEGION作为控制器，将其集成到图像优化流程中，以指导生成更高质量、更逼真的图像。大量实验表明，LEGION在多个基准测试中优于现有方法，尤其是在SynthScars上，其mIoU和F1得分分别比第二好的传统专家高出3.31%和7.75%。此外，在其指导下生成的优化图像与人类偏好更加一致。代码、模型和数据集将会开源。

🔬 方法详解

问题定义：现有合成图像检测方法主要集中在图像篡改检测，缺乏对伪造区域的精确定位和可解释性分析，难以提供可信的证据。同时，现有数据集存在生成器过时、标注粗糙的问题，无法满足对细粒度伪造痕迹分析的需求。

核心思路：利用多模态大语言模型（MLLM）的强大能力，将图像伪造检测任务转化为一个同时进行工件检测、分割和解释的多任务学习问题。通过结合视觉信息和文本信息，模型能够更准确地识别图像中的伪造痕迹，并提供可解释的理由。

技术框架：LEGION框架主要包含三个模块：工件检测模块、工件分割模块和文本解释模块。首先，工件检测模块负责识别图像中是否存在伪造痕迹。然后，工件分割模块对检测到的伪造区域进行像素级别的分割。最后，文本解释模块利用大语言模型生成对伪造区域的详细解释。整个框架通过多任务学习的方式进行训练，使得各个模块之间能够相互促进，提高整体性能。

关键创新：LEGION的关键创新在于将多模态大语言模型引入到合成图像检测任务中，并将其作为一个控制器集成到图像优化流程中。这使得模型不仅能够检测图像中的伪造痕迹，还能够提供可解释的理由，并指导生成更高质量的图像。

关键设计：LEGION框架使用了预训练的多模态大语言模型作为基础模型，并针对合成图像检测任务进行了微调。在训练过程中，使用了交叉熵损失函数来优化工件检测和分割模块，并使用了语言模型损失函数来优化文本解释模块。此外，还设计了一种新的数据增强方法，以提高模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

LEGION在SynthScars数据集上取得了显著的性能提升，mIoU和F1得分分别比第二好的传统专家高出3.31%和7.75%。此外，通过LEGION指导生成的优化图像与人类偏好更加一致，表明其在图像质量提升方面具有潜力。

🎯 应用场景

LEGION可应用于数字取证、社交媒体内容审核、新闻真实性验证等领域，帮助识别和揭露合成图像，维护网络信息安全。通过集成到图像生成流程中，可以指导生成更逼真、更符合人类偏好的图像，提升生成内容的质量。

📄 摘要（原文）

The rapid advancements in generative technology have emerged as a double-edged sword. While offering powerful tools that enhance convenience, they also pose significant social concerns. As defenders, current synthetic image detection methods often lack artifact-level textual interpretability and are overly focused on image manipulation detection, and current datasets usually suffer from outdated generators and a lack of fine-grained annotations. In this paper, we introduce SynthScars, a high-quality and diverse dataset consisting of 12,236 fully synthetic images with human-expert annotations. It features 4 distinct image content types, 3 categories of artifacts, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels. Furthermore, we propose LEGION (LEarning to Ground and explain for Synthetic Image detectiON), a multimodal large language model (MLLM)-based image forgery analysis framework that integrates artifact detection, segmentation, and explanation. Building upon this capability, we further explore LEGION as a controller, integrating it into image refinement pipelines to guide the generation of higher-quality and more realistic images. Extensive experiments show that LEGION outperforms existing methods across multiple benchmarks, particularly surpassing the second-best traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score. Moreover, the refined images generated under its guidance exhibit stronger alignment with human preferences. The code, model, and dataset will be released.

LEGION: Learning to Ground and Explain for Synthetic Image Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理