SciFigDetect: A Benchmark for AI-Generated Scientific Figure Detection

📄 arXiv: 2604.08211v1 📥 PDF

作者: You Hu, Chenzhuo Zhao, Changfa Mo, Haotian Liu, Xiaobai Li

分类: cs.CV

发布日期: 2026-04-09

🔗 代码/项目: GITHUB


💡 一句话要点

SciFigDetect:首个AI生成科学图检测基准,揭示现有检测方法在科学图像领域的不足。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成图像检测 科学图 基准数据集 多模态理解 视觉取证

📋 核心要点

  1. 现有AI生成图像检测方法主要针对开放域图像,缺乏对结构化、文本密集的科学图的有效检测能力。
  2. 论文构建了一个基于代理的数据管道,从论文中提取信息,生成结构化提示,并合成高质量的科学图。
  3. 实验表明,现有检测方法在零样本迁移、跨生成器泛化以及应对图像退化方面表现不佳,存在显著差距。

📝 摘要(中文)

现代多模态生成器现在可以生成接近可发布质量的科学图,这对视觉取证和研究诚信构成了新的挑战。与传统的AI生成的自然图像不同,科学图是结构化的、文本密集的,并且与学术语义紧密对齐,这使得它们成为一个独特且难以检测的目标。然而,现有的AI生成图像检测基准和方法几乎完全是为开放域图像开发的,使得这一设置在很大程度上未被探索。我们提出了第一个AI生成科学图检测基准。为了构建它,我们开发了一个基于代理的数据管道,该管道检索许可的源论文,执行论文文本和图的多模态理解,构建结构化提示,合成候选图,并通过审查驱动的细化循环来过滤它们。由此产生的基准涵盖了多个图类别、多个生成源和对齐的真实-合成对。我们在零样本、跨生成器和退化图像设置下对代表性检测器进行了基准测试。结果表明,当前的方法在零样本迁移中表现不佳,表现出强烈的生成器特定过拟合,并且在常见的后处理损坏下仍然很脆弱。这些发现揭示了现有AIGI检测能力与高质量科学图的新兴分布之间存在巨大差距。我们希望这个基准可以作为未来研究稳健和可泛化的科学图取证的基础。数据集可在 https://github.com/Joyce-yoyo/SciFigDetect 获得。

🔬 方法详解

问题定义:论文旨在解决AI生成的科学图检测问题。现有AI生成图像检测方法主要针对自然图像,无法有效应对科学图的特殊性质,如结构化布局、密集文本和学术语义关联。现有方法在科学图检测中泛化能力差,容易过拟合特定生成器,且对图像质量退化敏感。

核心思路:论文的核心思路是构建一个专门针对AI生成科学图的基准数据集,并利用该数据集评估现有检测方法的性能,从而揭示其在科学图检测方面的不足。通过构建高质量的真实-合成科学图对,为未来研究提供基础。

技术框架:论文构建了一个基于代理的数据管道,主要包含以下几个阶段:1) 从许可的源论文中检索数据;2) 对论文文本和图进行多模态理解,提取关键信息;3) 基于提取的信息构建结构化提示;4) 使用AI生成模型合成候选科学图;5) 通过人工审查和过滤,对生成的图像进行细化,最终得到高质量的基准数据集。

关键创新:论文的主要创新在于构建了首个专门用于AI生成科学图检测的基准数据集SciFigDetect。该数据集涵盖了多个图表类别、多个生成来源,并包含对齐的真实-合成图像对,为评估和改进科学图检测方法提供了重要资源。

关键设计:数据管道的关键设计包括:1) 使用多模态理解技术从论文中提取结构化信息,确保生成的提示与原始论文内容一致;2) 通过人工审查和过滤,保证合成图像的质量和真实性;3) 涵盖多种生成模型,以评估检测方法的泛化能力;4) 包含图像退化版本,以评估检测方法的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有AI生成图像检测方法在SciFigDetect基准上表现不佳,尤其是在零样本迁移和跨生成器泛化方面。检测器对特定生成器存在严重的过拟合现象,且对常见的图像后处理操作(如压缩、模糊)非常敏感。这些结果突显了现有方法在科学图检测方面的局限性,并为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于学术出版领域的图像真实性检测,辅助识别伪造或篡改的科学图,维护学术诚信。同时,该基准数据集能够促进AI生成图像检测技术在科学图像领域的应用和发展,提升检测算法的鲁棒性和泛化能力,为相关研究提供重要支撑。

📄 摘要(原文)

Modern multimodal generators can now produce scientific figures at near-publishable quality, creating a new challenge for visual forensics and research integrity. Unlike conventional AI-generated natural images, scientific figures are structured, text-dense, and tightly aligned with scholarly semantics, making them a distinct and difficult detection target. However, existing AI-generated image detection benchmarks and methods are almost entirely developed for open-domain imagery, leaving this setting largely unexplored. We present the first benchmark for AI-generated scientific figure detection. To construct it, we develop an agent-based data pipeline that retrieves licensed source papers, performs multimodal understanding of paper text and figures, builds structured prompts, synthesizes candidate figures, and filters them through a review-driven refinement loop. The resulting benchmark covers multiple figure categories, multiple generation sources and aligned real--synthetic pairs. We benchmark representative detectors under zero-shot, cross-generator, and degraded-image settings. Results show that current methods fail dramatically in zero-shot transfer, exhibit strong generator-specific overfitting, and remain fragile under common post-processing corruptions. These findings reveal a substantial gap between existing AIGI detection capabilities and the emerging distribution of high-quality scientific figures. We hope this benchmark can serve as a foundation for future research on robust and generalizable scientific-figure forensics. The dataset is available at https://github.com/Joyce-yoyo/SciFigDetect.