AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models

📄 arXiv: 2507.02664v2 📥 PDF

作者: Ziyin Zhou, Yunpeng Luo, Yuanchen Wu, Ke Sun, Jiayi Ji, Ke Yan, Shouhong Ding, Xiaoshuai Sun, Yunsheng Wu, Rongrong Ji

分类: cs.CV

发布日期: 2025-07-03 (更新: 2025-07-07)

备注: Accepted to ICCV 2025


💡 一句话要点

AIGI-Holmes:通过多模态大语言模型实现可解释和泛化的AI生成图像检测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成图像检测 多模态大语言模型 可解释性 泛化能力 指令微调 偏好学习 视觉专家 协作解码

📋 核心要点

  1. 现有AIGI检测技术缺乏人类可验证的解释,并且在新一代生成技术上泛化能力不足,限制了其应用。
  2. 论文提出Holmes Pipeline,通过视觉专家预训练、监督微调和直接偏好优化,使MLLM适应AIGI检测并生成可解释结果。
  3. 实验表明,AIGI-Holmes在多个基准测试中表现出色,验证了其有效性和泛化能力。

📝 摘要(中文)

人工智能生成内容(AIGC)技术的快速发展导致高度逼真的AI生成图像(AIGI)被滥用于传播虚假信息,对公共信息安全构成威胁。现有的AIGI检测技术虽然通常有效,但面临两个问题:1) 缺乏人类可验证的解释;2) 在最新一代生成技术中缺乏泛化能力。为了解决这些问题,我们引入了一个大规模和全面的数据集Holmes-Set,其中包括Holmes-SFTSet(一个带有图像是否为AI生成的解释的指令调优数据集)和Holmes-DPOSet(一个人为对齐的偏好数据集)。我们的工作引入了一种高效的数据标注方法,称为多专家评审团,通过结构化的MLLM解释增强数据生成,并通过跨模型评估、专家缺陷过滤和人类偏好修改进行质量控制。此外,我们提出了Holmes Pipeline,一个精心设计的三阶段训练框架,包括视觉专家预训练、监督微调和直接偏好优化。Holmes Pipeline使多模态大语言模型(MLLM)适应AIGI检测,同时生成人类可验证和人类对齐的解释,最终产生我们的模型AIGI-Holmes。在推理阶段,我们引入了一种协作解码策略,将模型对视觉专家的感知与MLLM的语义推理相结合,进一步增强了泛化能力。在三个基准上的大量实验验证了我们的AIGI-Holmes的有效性。

🔬 方法详解

问题定义:论文旨在解决现有AIGI检测方法缺乏可解释性和泛化性的问题。现有方法难以提供人类可理解的判断依据,并且在面对新型AI生成图像时性能显著下降。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的强大语义理解和推理能力,结合视觉专家的图像特征提取能力,构建一个可解释且泛化性强的AIGI检测系统。通过指令微调和偏好学习,使模型能够生成人类可理解的解释,并提升对新型AIGI的识别能力。

技术框架:Holmes Pipeline包含三个主要阶段:1) 视觉专家预训练:训练视觉模型提取图像特征;2) 监督微调(SFT):使用Holmes-SFTSet数据集,通过指令微调训练MLLM生成AIGI判断和解释;3) 直接偏好优化(DPO):使用Holmes-DPOSet数据集,通过DPO算法对齐模型输出与人类偏好。在推理阶段,采用协作解码策略,融合视觉专家和MLLM的输出。

关键创新:论文的关键创新在于:1) 提出了一个大规模、高质量的AIGI检测数据集Holmes-Set,包含指令微调和偏好学习数据;2) 设计了Holmes Pipeline,将MLLM应用于AIGI检测,并使其具备可解释性;3) 提出了协作解码策略,有效融合视觉信息和语义推理。

关键设计:Holmes-Set数据集通过“多专家评审团”方法进行标注,保证数据质量。Holmes Pipeline采用三阶段训练策略,逐步提升模型性能。协作解码策略通过加权融合视觉专家和MLLM的输出,权重参数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AIGI-Holmes在三个基准测试中取得了显著的性能提升,验证了其有效性。具体而言,相较于现有方法,AIGI-Holmes在准确率、召回率和F1值等指标上均有明显提高,尤其是在处理新型AI生成图像时,泛化能力优势更加突出。实验结果表明,论文提出的数据集和训练方法能够有效提升AIGI检测模型的性能和可解释性。

🎯 应用场景

该研究成果可应用于内容审核、虚假信息检测、版权保护等领域。通过提供可解释的AIGI检测结果,有助于提高公众对AI生成内容的认知,减少虚假信息传播,并为相关法律法规的制定提供技术支持。未来,该技术可进一步扩展到其他AIGC类型的检测,例如AI生成的音频和视频。

📄 摘要(原文)

The rapid development of AI-generated content (AIGC) technology has led to the misuse of highly realistic AI-generated images (AIGI) in spreading misinformation, posing a threat to public information security. Although existing AIGI detection techniques are generally effective, they face two issues: 1) a lack of human-verifiable explanations, and 2) a lack of generalization in the latest generation technology. To address these issues, we introduce a large-scale and comprehensive dataset, Holmes-Set, which includes the Holmes-SFTSet, an instruction-tuning dataset with explanations on whether images are AI-generated, and the Holmes-DPOSet, a human-aligned preference dataset. Our work introduces an efficient data annotation method called the Multi-Expert Jury, enhancing data generation through structured MLLM explanations and quality control via cross-model evaluation, expert defect filtering, and human preference modification. In addition, we propose Holmes Pipeline, a meticulously designed three-stage training framework comprising visual expert pre-training, supervised fine-tuning, and direct preference optimization. Holmes Pipeline adapts multimodal large language models (MLLMs) for AIGI detection while generating human-verifiable and human-aligned explanations, ultimately yielding our model AIGI-Holmes. During the inference stage, we introduce a collaborative decoding strategy that integrates the model perception of the visual expert with the semantic reasoning of MLLMs, further enhancing the generalization capabilities. Extensive experiments on three benchmarks validate the effectiveness of our AIGI-Holmes.