LEGION: Learning to Ground and Explain for Synthetic Image Detection
作者: Hengrui Kang, Siwei Wen, Zichen Wen, Junyan Ye, Weijia Li, Peilin Feng, Baichuan Zhou, Bin Wang, Dahua Lin, Linfeng Zhang, Conghui He
分类: cs.CV
发布日期: 2025-03-19
备注: Project Page: https://opendatalab.github.io/LEGION
💡 一句话要点
提出LEGION框架,用于合成图像检测,并具备伪造区域定位与解释能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 合成图像检测 多模态学习 大语言模型 图像分割 可解释性 图像伪造 数据集 图像优化
📋 核心要点
- 现有合成图像检测方法缺乏工件级别的文本解释性,且数据集存在生成器过时和标注不足的问题。
- LEGION框架基于多模态大语言模型,集成了工件检测、分割和解释功能,可用于图像伪造分析。
- 实验表明,LEGION在多个基准测试中优于现有方法,并且能够指导生成更高质量的图像。
📝 摘要(中文)
生成技术的快速发展带来便利的同时也引发了社会问题。作为防御手段,现有的合成图像检测方法通常缺乏工件级别的文本可解释性,并且过度关注图像篡改检测。此外,当前的数据集通常存在生成器过时和缺乏细粒度注释的问题。本文提出了SynthScars,一个高质量、多样化的数据集,包含12236张完全合成的图像,并由人类专家进行标注。它具有4种不同的图像内容类型、3种工件类别,以及像素级分割、详细的文本解释和工件类别标签等细粒度注释。此外,本文提出了一种基于多模态大型语言模型(MLLM)的图像伪造分析框架LEGION,它集成了工件检测、分割和解释功能。在此基础上,进一步探索了LEGION作为控制器,将其集成到图像优化流程中,以指导生成更高质量、更逼真的图像。大量实验表明,LEGION在多个基准测试中优于现有方法,尤其是在SynthScars上,其mIoU和F1得分分别比第二好的传统专家高出3.31%和7.75%。此外,在其指导下生成的优化图像与人类偏好更加一致。代码、模型和数据集将会开源。
🔬 方法详解
问题定义:现有合成图像检测方法主要集中在图像篡改检测,缺乏对伪造区域的精确定位和可解释性分析,难以提供可信的证据。同时,现有数据集存在生成器过时、标注粗糙的问题,无法满足对细粒度伪造痕迹分析的需求。
核心思路:利用多模态大语言模型(MLLM)的强大能力,将图像伪造检测任务转化为一个同时进行工件检测、分割和解释的多任务学习问题。通过结合视觉信息和文本信息,模型能够更准确地识别图像中的伪造痕迹,并提供可解释的理由。
技术框架:LEGION框架主要包含三个模块:工件检测模块、工件分割模块和文本解释模块。首先,工件检测模块负责识别图像中是否存在伪造痕迹。然后,工件分割模块对检测到的伪造区域进行像素级别的分割。最后,文本解释模块利用大语言模型生成对伪造区域的详细解释。整个框架通过多任务学习的方式进行训练,使得各个模块之间能够相互促进,提高整体性能。
关键创新:LEGION的关键创新在于将多模态大语言模型引入到合成图像检测任务中,并将其作为一个控制器集成到图像优化流程中。这使得模型不仅能够检测图像中的伪造痕迹,还能够提供可解释的理由,并指导生成更高质量的图像。
关键设计:LEGION框架使用了预训练的多模态大语言模型作为基础模型,并针对合成图像检测任务进行了微调。在训练过程中,使用了交叉熵损失函数来优化工件检测和分割模块,并使用了语言模型损失函数来优化文本解释模块。此外,还设计了一种新的数据增强方法,以提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
LEGION在SynthScars数据集上取得了显著的性能提升,mIoU和F1得分分别比第二好的传统专家高出3.31%和7.75%。此外,通过LEGION指导生成的优化图像与人类偏好更加一致,表明其在图像质量提升方面具有潜力。
🎯 应用场景
LEGION可应用于数字取证、社交媒体内容审核、新闻真实性验证等领域,帮助识别和揭露合成图像,维护网络信息安全。通过集成到图像生成流程中,可以指导生成更逼真、更符合人类偏好的图像,提升生成内容的质量。
📄 摘要(原文)
The rapid advancements in generative technology have emerged as a double-edged sword. While offering powerful tools that enhance convenience, they also pose significant social concerns. As defenders, current synthetic image detection methods often lack artifact-level textual interpretability and are overly focused on image manipulation detection, and current datasets usually suffer from outdated generators and a lack of fine-grained annotations. In this paper, we introduce SynthScars, a high-quality and diverse dataset consisting of 12,236 fully synthetic images with human-expert annotations. It features 4 distinct image content types, 3 categories of artifacts, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels. Furthermore, we propose LEGION (LEarning to Ground and explain for Synthetic Image detectiON), a multimodal large language model (MLLM)-based image forgery analysis framework that integrates artifact detection, segmentation, and explanation. Building upon this capability, we further explore LEGION as a controller, integrating it into image refinement pipelines to guide the generation of higher-quality and more realistic images. Extensive experiments show that LEGION outperforms existing methods across multiple benchmarks, particularly surpassing the second-best traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score. Moreover, the refined images generated under its guidance exhibit stronger alignment with human preferences. The code, model, and dataset will be released.