AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images

📄 arXiv: 2604.28177v1 📥 PDF

作者: Bo Zhang, Tzu-Yen Ma, Zichen Tang, Junpeng Ding, Zirui Wang, Yizhuo Zhao, Peilin Gao, Zijie Xi, Zixin Ding, Haiyang Sun, Haocheng Gao, Yuan Liu, Liangjia Wang, Yiling Huang, Yujie Wang, Yuyue Zhang, Ronghui Xi, Yuanze Li, Jiacheng Liu, Zhongjun Yang, Haihong E

分类: cs.CV, cs.CY

发布日期: 2026-04-30

备注: Accepted to ACL 2026 Main Conference


💡 一句话要点

AEGIS:用于评估AI生成学术图像取证分析的综合基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成图像 图像取证 学术图像 基准数据集 多模态学习

📋 核心要点

  1. 现有学术图像取证基准缺乏领域特定复杂性,难以充分评估模型在实际场景中的性能。
  2. AEGIS通过构建包含多个学术类别和伪造策略的综合基准,旨在更真实地模拟学术图像取证的挑战。
  3. 实验结果表明,现有模型在AEGIS基准上表现不佳,突显了学术图像取证领域的巨大改进空间。

📝 摘要(中文)

我们提出了AEGIS,一个用于评估AI生成学术图像取证分析的综合基准。与现有基准相比,AEGIS具有三个关键优势:(1)领域特定复杂性:涵盖七个学术类别,包含39个细粒度子类型,揭示了内在的取证难度,即使GPT-5.1也仅达到48.80%的总体性能,专家模型也只能实现有限的定位精度(IoU 30.09%);(2)多样化的伪造模拟:模拟了25个生成模型中常见的四种学术伪造策略,其中11个模型的平均取证准确率低于50%,表明取证技术落后于生成技术的发展;(3)多维度取证评估:联合评估检测、推理和定位,揭示了模型家族之间的互补优势,多模态大型语言模型(MLLM)在文本伪影识别方面达到84.74%的准确率,专家检测器在二元真伪检测方面达到79.54%的准确率。通过评估25个领先的MLLM、9个专家模型和一个统一的多模态理解和生成模型,AEGIS作为一个诊断测试平台,揭示了学术图像取证的基本局限性。

🔬 方法详解

问题定义:论文旨在解决AI生成学术图像的取证分析问题。现有方法在领域特定复杂性、伪造多样性和多维度评估方面存在不足,导致模型在实际应用中效果不佳。现有方法难以有效应对各种生成模型和伪造策略带来的挑战。

核心思路:论文的核心思路是构建一个更全面、更具挑战性的基准数据集AEGIS,以更真实地评估和推动AI生成学术图像取证技术的发展。通过模拟多种学术伪造策略和涵盖多个学术类别,AEGIS能够更准确地反映实际应用场景的复杂性。

技术框架:AEGIS基准的构建包括以下几个主要阶段:1)定义学术类别和子类型;2)选择生成模型和伪造策略;3)生成伪造图像;4)构建评估指标,包括检测、推理和定位。该基准旨在全面评估模型的取证能力。

关键创新:AEGIS的关键创新在于其领域特定复杂性、多样化的伪造模拟和多维度取证评估。与现有基准相比,AEGIS更全面地考虑了学术图像取证的各种挑战,并提供了更细粒度的评估指标。

关键设计:AEGIS包含七个学术类别和39个细粒度子类型,涵盖了常见的学术图像类型。论文模拟了四种常见的学术伪造策略,并使用了25个生成模型来生成伪造图像。评估指标包括检测准确率、推理准确率和定位精度(IoU)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-5.1在AEGIS基准上的总体性能也仅为48.80%,专家模型的定位精度(IoU)仅为30.09%。此外,11个生成模型的平均取证准确率低于50%。这些结果突显了现有模型在学术图像取证方面的局限性,并表明该领域仍有很大的改进空间。

🎯 应用场景

该研究成果可应用于学术诚信检测、科研成果评估、图像版权保护等领域。通过提高AI生成图像的取证分析能力,可以有效打击学术不端行为,维护学术界的公平公正。此外,该技术还可用于检测恶意篡改的图像,保障信息安全。

📄 摘要(原文)

We introduce AEGIS, A holistic benchmark for Evaluating forensic analysis of AI-Generated academic ImageS. Compared to existing benchmarks, AEGIS features three key advances: (1) Domain-Specific Complexity: covering seven academic categories with 39 fine-grained subtypes, exposing intrinsic forensic difficulty, where even GPT-5.1 reaches 48.80% overall performance and expert models achieve only limited localization accuracy (IoU 30.09%); (2) Diverse Forgery Simulations: modeling four prevalent academic forgery strategies across 25 generative models, with 11 yielding average forensic accuracy below 50%, showing that forensics lag behind generative advances; and (3) Multi-Dimensional Forensic Evaluation: jointly assessing detection, reasoning, and localization, revealing complementary strengths between model families, with multimodal large language models (MLLMs) at 84.74% accuracy in textual artifact recognition and expert detectors peaking at 79.54% accuracy in binary authenticity detection. By evaluating 25 leading MLLMs, nine expert models, and one unified multimodal understanding and generation model, AEGIS serves as a diagnostic testbed exposing fundamental limitations in academic image forensics.