Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement

📄 arXiv: 2503.20294v2 📥 PDF

作者: Xinghao Wang, Tao Gong, Qi Chu, Bin Liu, Nenghai Yu

分类: cs.CV, cs.AI

发布日期: 2025-03-26 (更新: 2025-03-31)


💡 一句话要点

提出CABL与CGSR模块,用于上下文感知弱监督图像篡改定位,提升定位精度。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像篡改检测 弱监督学习 上下文感知 边缘定位 SAM分割

📋 核心要点

  1. 现有弱监督图像篡改定位方法忽略边缘信息,导致定位精度不足,难以满足实际应用需求。
  2. 提出CABL模块聚合边界特征并学习上下文不一致性,CGSR模块利用CAM和SAM细化定位结果。
  3. 实验结果表明,该方法在多个数据集上取得了优异的定位性能,显著提升了弱监督篡改定位的精度。

📝 摘要(中文)

恶意图像篡改带来了社会风险,因此有效的图像篡改检测方法至关重要。目前图像篡改检测方法主要由全监督方法驱动,这需要大量的人工像素级标注。因此,探索仅需要图像级二元标签进行训练的弱监督图像篡改定位方法至关重要。然而,现有的弱监督图像篡改方法忽略了边缘信息对于精确定位的重要性,导致次优的定位性能。为了解决这个问题,我们提出了一个上下文感知边界定位(CABL)模块,以聚合边界特征并学习上下文不一致性,从而定位被篡改的区域。此外,通过利用类激活映射(CAM)和分割一切模型(SAM),我们引入了CAM引导的SAM细化(CGSR)模块,以生成更准确的篡改定位图。通过集成这两个模块,我们提出了一个基于双分支Transformer-CNN架构的新型弱监督框架。我们的方法在多个数据集上实现了出色的定位性能。

🔬 方法详解

问题定义:论文旨在解决弱监督图像篡改定位问题。现有方法主要依赖全监督学习,需要像素级别的标注数据,成本高昂。而现有的弱监督方法忽略了图像边缘信息的重要性,导致定位精度不高,无法准确区分篡改区域和原始区域。

核心思路:论文的核心思路是利用图像的上下文信息和边缘信息来提高弱监督篡改定位的精度。通过关注篡改区域的边界,并结合上下文的不一致性,可以更准确地定位篡改区域。同时,利用预训练的分割模型SAM,可以进一步细化定位结果。

技术框架:该方法基于双分支Transformer-CNN架构。一个分支使用Transformer提取全局上下文特征,另一个分支使用CNN提取局部特征。CABL模块被用于聚合边界特征并学习上下文不一致性。CGSR模块则利用CAM生成初始定位图,并使用SAM进行细化。最终,两个分支的结果被融合,得到最终的篡改定位图。

关键创新:论文的关键创新在于提出了CABL和CGSR两个模块。CABL模块通过聚合边界特征和学习上下文不一致性,有效地提高了篡改定位的精度。CGSR模块则利用预训练的SAM模型,结合CAM的引导,实现了对定位结果的精细化。这种结合上下文信息和边缘信息的策略,是与现有方法的本质区别。

关键设计:CABL模块的设计关键在于如何有效地聚合边界特征。论文采用了一种多尺度的卷积操作,以提取不同尺度的边界信息。CGSR模块的关键在于如何利用CAM和SAM进行有效的细化。论文采用了一种迭代的细化策略,逐步提高定位精度。损失函数方面,使用了标准的交叉熵损失函数,以及一些辅助损失函数,以提高训练的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在多个公开数据集上进行了评估,包括CASIA、Coverage和Columbia。实验结果表明,该方法在弱监督篡改定位任务上取得了显著的性能提升,优于现有的弱监督方法。例如,在CASIA数据集上,该方法的F1-score比现有最佳方法提高了5%以上,证明了CABL和CGSR模块的有效性。

🎯 应用场景

该研究成果可应用于数字取证、新闻真实性验证、社交媒体内容审核等领域。通过自动检测图像篡改区域,可以帮助识别虚假信息,维护网络安全,防止恶意传播和欺诈行为。未来,该技术有望集成到自动化内容审核系统中,提高审核效率和准确性。

📄 摘要(原文)

Malicious image manipulation poses societal risks, increasing the importance of effective image manipulation detection methods. Recent approaches in image manipulation detection have largely been driven by fully supervised approaches, which require labor-intensive pixel-level annotations. Thus, it is essential to explore weakly supervised image manipulation localization methods that only require image-level binary labels for training. However, existing weakly supervised image manipulation methods overlook the importance of edge information for accurate localization, leading to suboptimal localization performance. To address this, we propose a Context-Aware Boundary Localization (CABL) module to aggregate boundary features and learn context-inconsistency for localizing manipulated areas. Furthermore, by leveraging Class Activation Mapping (CAM) and Segment Anything Model (SAM), we introduce the CAM-Guided SAM Refinement (CGSR) module to generate more accurate manipulation localization maps. By integrating two modules, we present a novel weakly supervised framework based on a dual-branch Transformer-CNN architecture. Our method achieves outstanding localization performance across multiple datasets.