Webly-Supervised Image Manipulation Localization via Category-Aware Auto-Annotation

📄 arXiv: 2508.20987v2 📥 PDF

作者: Chenfan Qu, Yiwu Zhong, Huiguo He, Bin Li, Lianwen Jin

分类: cs.CV

发布日期: 2025-08-28 (更新: 2025-12-26)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于类别感知的自动标注Webly监督图像篡改定位方法,缓解数据稀缺问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像篡改定位 弱监督学习 自动标注 数据集构建 Web监督 数字取证 深度学习

📋 核心要点

  1. 现有图像篡改定位方法面临高质量标注数据稀缺的挑战,限制了模型性能和泛化能力。
  2. 提出一种基于Web数据的弱监督学习方法,通过自动标注框架CAAAv2和质量评估指标QES构建大规模数据集MIMLv2。
  3. 实验表明,该方法显著提升了图像篡改定位的性能,Web-IML模型在平均IoU上超越了现有SOTA模型SparseViT。

📝 摘要(中文)

图像编辑工具篡改的图像会误导观众,对社会安全构成重大风险。然而,由于高质量标注数据的严重稀缺,准确地定位篡改图像区域仍然具有挑战性,因为创建这些数据非常费力。为了解决这个问题,我们提出了一种新方法,通过利用现成的网络数据来缓解数据稀缺问题。我们利用了大量来自网络的、手动伪造的图像,以及从一个更简单的辅助任务(约束图像篡改定位)中自动生成的注释。具体来说,我们引入了CAAAv2,这是一个新颖的自动标注框架,它以类别感知、先验特征去噪范式运行,显著降低了任务的复杂性。为了进一步确保标注的可靠性,我们提出了一种新的度量标准QES,用于过滤掉低质量的标注。结合CAAAv2和QES,我们构建了MIMLv2,这是一个大规模、多样化和高质量的数据集,包含246,212张带有像素级掩码标注的手动伪造图像。这比现有的手工数据集(如IMD20)大120多倍。此外,我们还引入了Object Jitter技术,通过生成高质量的篡改伪像来进一步增强模型训练。基于这些进展,我们开发了Web-IML,一种旨在有效利用Web规模监督进行图像篡改定位的新模型。大量的实验表明,我们的方法大大缓解了数据稀缺问题,并显著提高了各种模型在多个真实伪造基准上的性能。通过提出的Web监督,我们的Web-IML实现了31%的显著性能提升,并超过了之前的最先进的SparseViT 21.6个平均IoU点。

🔬 方法详解

问题定义:图像篡改定位旨在识别并分割图像中被篡改的区域。现有方法依赖于大量高质量的像素级标注数据,而人工标注成本高昂且耗时,导致数据稀缺问题,限制了模型的泛化能力。

核心思路:利用互联网上现成的图像数据,通过自动标注的方式生成大规模的训练数据集,从而缓解数据稀缺问题。核心在于设计有效的自动标注方法,并对标注质量进行评估和筛选,以保证训练数据的可靠性。

技术框架:该方法主要包含三个模块:1) CAAAv2自动标注框架,用于生成初始的像素级掩码标注;2) QES质量评估指标,用于过滤低质量的标注;3) Web-IML模型,利用大规模Web数据进行训练,实现图像篡改定位。此外,还提出了Object Jitter数据增强技术,进一步提升模型性能。

关键创新:1) CAAAv2自动标注框架,采用类别感知的先验特征去噪范式,降低了自动标注的难度,提高了标注质量。2) QES质量评估指标,能够有效识别和过滤低质量的标注,保证训练数据的可靠性。3) Web-IML模型,能够有效利用Web规模的弱监督数据进行训练,显著提升了图像篡改定位的性能。

关键设计:CAAAv2框架利用类别信息来指导特征去噪过程,从而提高自动标注的准确性。QES指标综合考虑了标注区域的面积、形状和边缘信息,从而评估标注质量。Object Jitter通过随机扰动图像中的对象,生成更逼真的篡改伪像,增强模型的鲁棒性。损失函数方面,可能采用了交叉熵损失或Dice损失等常用的分割损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法构建了大规模数据集MIMLv2,包含246,212张图像,比现有数据集大120多倍。实验结果表明,Web-IML模型在图像篡改定位任务上取得了显著的性能提升,平均IoU超过了之前的SOTA模型SparseViT 21.6个百分点,达到了31%的性能增益,验证了Web监督学习的有效性。

🎯 应用场景

该研究成果可应用于数字取证、新闻真实性验证、社交媒体内容审核等领域,帮助识别和定位被篡改的图像,防止虚假信息传播,维护社会安全。未来可进一步扩展到视频篡改检测,以及与其他模态信息(如文本、音频)的融合,提高检测的准确性和鲁棒性。

📄 摘要(原文)

Images manipulated by image editing tools can mislead viewers and pose significant risks to social security. However, accurately localizing manipulated image regions remains challenging due to the severe scarcity of high-quality annotated data, which is laborious to create. To address this, we propose a novel approach that mitigates data scarcity by leveraging readily available web data. We utilize a large collection of manually forged images from the web, as well as automatically generated annotations derived from a simpler auxiliary task, constrained image manipulation localization.Specifically, we introduce CAAAv2, a novel auto-annotation framework that operates on a category-aware, prior-feature-denoising paradigm that notably reduces task complexity. To further ensure annotation reliability, we propose QES, a novel metric that filters out low-quality annotations. Combining CAAAv2 and QES, we construct MIMLv2, a large-scale, diverse, and high-quality dataset containing 246,212 manually forged images with pixel-level mask annotations. This is over 120 times larger than existing handcrafted datasets like IMD20. Additionally, we introduce Object Jitter, a technique that further enhances model training by generating high-quality manipulation artifacts. Building on these advances, we develop Web-IML, a new model designed to effectively leverage web-scale supervision for the task of image manipulation localization. Extensive experiments demonstrate that our approach substantially alleviates the data scarcity problem and significantly improves the performance of various models on multiple real-world forgery benchmarks. With the proposed web supervision, our Web-IML achieves a striking performance gain of 31% and surpasses the previous state-of-the-art SparseViT by 21.6 average IoU points. The dataset and code will be released at https://github.com/qcf-568/MIML.