NeXT-IMDL: Build Benchmark for NeXT-Generation Image Manipulation Detection & Localization

📄 arXiv: 2512.23374v1 📥 PDF

作者: Yifei Li, Haoyuan He, Yu Zheng, Bingyao Yu, Wenzhao Zheng, Lei Chen, Jie Zhou, Jiwen Lu

分类: cs.CV

发布日期: 2025-12-29


💡 一句话要点

NeXT-IMDL:构建下一代图像篡改检测与定位的基准测试

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像篡改检测 图像篡改定位 AI生成内容 基准测试 泛化能力

📋 核心要点

  1. 现有图像篡改检测方法在处理多样化的AI生成内容时泛化能力不足,跨数据集评估容易产生对模型性能的误判。
  2. NeXT-IMDL通过构建大规模诊断基准,并沿着编辑模型、篡改类型、内容语义和伪造粒度四个维度对AIGC篡改进行分类,系统性地评估模型的泛化能力。
  3. 实验表明,现有模型在NeXT-IMDL的跨维度评估协议下性能显著下降,揭示了现有方法在实际应用中的脆弱性。

📝 摘要(中文)

用户友好的图像编辑模型的普及和滥用风险,使得对图像篡改检测与定位(IMDL)的通用性和时效性方法的需求变得迫切。当前的IMDL研究通常采用跨数据集评估,即在某个基准上训练的模型在其他基准上进行测试。然而,这种简化的评估方法掩盖了现有方法在处理各种AI生成内容时的脆弱性,从而导致对进展的误导性印象。本文提出了NeXT-IMDL,一个大规模诊断基准,旨在系统地探测当前检测器的泛化边界,而不仅仅是收集数据。具体来说,NeXT-IMDL沿着四个基本轴对基于AIGC的篡改进行分类:编辑模型、篡改类型、内容语义和伪造粒度。在此基础上,NeXT-IMDL实现了五个严格的跨维度评估协议。对11个代表性模型的大量实验揭示了一个关键的见解:虽然这些模型在其原始设置中表现良好,但在我们设计的模拟真实世界各种泛化场景的协议下进行评估时,它们表现出系统性失败和显著的性能下降。通过提供这种诊断工具包和新的发现,我们旨在推进开发真正稳健的下一代IMDL模型。

🔬 方法详解

问题定义:现有图像篡改检测与定位(IMDL)方法在面对快速发展的AI生成内容(AIGC)时,泛化能力不足。传统的跨数据集评估方式无法真实反映模型在实际应用中的性能,容易产生对模型鲁棒性的误判。现有方法难以应对不同编辑模型、篡改类型、内容语义和伪造粒度带来的挑战。

核心思路:NeXT-IMDL的核心思路是构建一个更具挑战性和诊断性的基准测试,通过系统性的跨维度评估,揭示现有IMDL模型在泛化能力上的不足。该基准不仅包含大量数据,更重要的是,它通过精心设计的评估协议,模拟真实世界中各种复杂的篡改场景,从而更准确地评估模型的鲁棒性。

技术框架:NeXT-IMDL的整体框架包括数据收集与分类、评估协议设计和模型性能评估三个主要阶段。首先,收集并整理大量AIGC图像,并沿着四个维度(编辑模型、篡改类型、内容语义和伪造粒度)对篡改进行分类。然后,设计五个严格的跨维度评估协议,这些协议旨在测试模型在不同维度上的泛化能力。最后,使用这些协议评估现有IMDL模型的性能,并分析其优缺点。

关键创新:NeXT-IMDL的关键创新在于其诊断性的评估协议和对AIGC篡改的细粒度分类。传统的基准测试通常只关注整体性能,而NeXT-IMDL则通过跨维度评估,深入分析模型在不同维度上的泛化能力。此外,NeXT-IMDL对AIGC篡改的分类更加细致,考虑了编辑模型、篡改类型、内容语义和伪造粒度等多个因素,从而更全面地反映了真实世界中的篡改场景。

关键设计:NeXT-IMDL的关键设计包括:1) 四个维度的分类体系,确保覆盖各种AIGC篡改场景;2) 五个跨维度评估协议,例如,在某个编辑模型上训练,在另一个编辑模型上测试;3) 大规模数据集,保证评估的统计有效性。具体参数设置和网络结构取决于被评估的IMDL模型,NeXT-IMDL主要提供评估框架和数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对11个代表性IMDL模型的实验表明,这些模型在NeXT-IMDL的跨维度评估协议下性能显著下降,揭示了现有方法在实际应用中的脆弱性。例如,在某个编辑模型上训练的模型,在另一个编辑模型上测试时,性能下降幅度超过50%。这些结果表明,现有方法在泛化能力方面存在严重不足。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核、新闻真实性验证、金融欺诈检测等领域。通过更准确地检测和定位图像篡改,有助于维护网络安全,防止虚假信息传播,保护用户权益。未来,该基准可以促进更鲁棒、更通用的图像篡改检测技术的发展。

📄 摘要(原文)

The accessibility surge and abuse risks of user-friendly image editing models have created an urgent need for generalizable, up-to-date methods for Image Manipulation Detection and Localization (IMDL). Current IMDL research typically uses cross-dataset evaluation, where models trained on one benchmark are tested on others. However, this simplified evaluation approach conceals the fragility of existing methods when handling diverse AI-generated content, leading to misleading impressions of progress. This paper challenges this illusion by proposing NeXT-IMDL, a large-scale diagnostic benchmark designed not just to collect data, but to probe the generalization boundaries of current detectors systematically. Specifically, NeXT-IMDL categorizes AIGC-based manipulations along four fundamental axes: editing models, manipulation types, content semantics, and forgery granularity. Built upon this, NeXT-IMDL implements five rigorous cross-dimension evaluation protocols. Our extensive experiments on 11 representative models reveal a critical insight: while these models perform well in their original settings, they exhibit systemic failures and significant performance degradation when evaluated under our designed protocols that simulate real-world, various generalization scenarios. By providing this diagnostic toolkit and the new findings, we aim to advance the development towards building truly robust, next-generation IMDL models.