A Lightweight and Effective Image Tampering Localization Network with Vision Mamba

📄 arXiv: 2502.09941v1 📥 PDF

作者: Kun Guo, Gang Cao, Zijie Lou, Xianglin Huang, Jiaoyun Liu

分类: cs.CV, cs.CR

发布日期: 2025-02-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于Vision Mamba的轻量级图像篡改定位网络ForMa,实现高效全局依赖建模。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像篡改定位 Vision Mamba 全局依赖建模 轻量级网络 数字取证

📋 核心要点

  1. 现有图像篡改定位方法受限于CNN局部感受野或Transformer的计算复杂度,难以兼顾全局建模和效率。
  2. ForMa利用Vision Mamba的线性复杂度全局依赖建模能力,设计轻量级网络,高效捕获图像篡改特征。
  3. 实验表明,ForMa在多个数据集上实现了最先进的性能,同时保持了最低的计算复杂度,具有良好的泛化性和鲁棒性。

📝 摘要(中文)

当前图像篡改定位方法主要依赖于卷积神经网络(CNN)和Transformer。CNN的局部感受野有限,而Transformer提供全局上下文建模,但计算复杂度呈平方级增长。最近,状态空间模型Mamba作为一种有竞争力的替代方案出现,能够以线性复杂度进行全局依赖建模。受此启发,我们提出了一种基于Vision Mamba(ForMa)的轻量级有效取证网络,用于盲图像篡改定位。首先,ForMa捕获多尺度全局特征,通过线性复杂度实现高效的全局依赖建模。然后,通过一个轻量级解码器生成像素级定位图,该解码器采用无参数的像素重组层进行上采样。此外,提出了一种噪声辅助解码策略,以整合来自篡改图像的互补操作痕迹,提高解码器对伪造线索的敏感性。在10个标准数据集上的实验结果表明,ForMa在保持最低计算复杂度的同时,实现了最先进的泛化能力和鲁棒性。

🔬 方法详解

问题定义:图像篡改定位旨在识别图像中被篡改的区域。现有方法,如基于CNN的方法,感受野有限,难以捕捉全局上下文信息;而基于Transformer的方法,计算复杂度高,难以应用于高分辨率图像。因此,如何在保证全局建模能力的同时,降低计算复杂度,是图像篡改定位领域的一个重要挑战。

核心思路:论文的核心思路是利用Vision Mamba模型,该模型具有线性复杂度的全局依赖建模能力。通过将Vision Mamba引入图像篡改定位任务,可以在高效地捕捉全局上下文信息的同时,降低计算复杂度。此外,论文还提出了噪声辅助解码策略,以增强解码器对篡改痕迹的敏感性。

技术框架:ForMa网络主要由三个部分组成:多尺度特征提取模块、Vision Mamba模块和轻量级解码器。首先,多尺度特征提取模块用于提取图像的多尺度特征。然后,Vision Mamba模块用于对多尺度特征进行全局依赖建模。最后,轻量级解码器用于生成像素级的篡改定位图。解码器采用无参数的像素重组层进行上采样,以降低计算复杂度。

关键创新:论文的关键创新在于将Vision Mamba模型引入图像篡改定位任务,并提出了噪声辅助解码策略。Vision Mamba模型能够以线性复杂度进行全局依赖建模,从而在保证全局建模能力的同时,降低计算复杂度。噪声辅助解码策略通过整合来自篡改图像的互补操作痕迹,提高了解码器对伪造线索的敏感性。

关键设计:在网络结构方面,采用了多尺度特征提取模块,以捕获不同尺度的篡改特征。解码器部分,使用Pixel Shuffle进行上采样,避免引入额外的参数。噪声辅助解码策略的具体实现方式未知,需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ForMa在10个标准数据集上进行了实验,结果表明,ForMa在保持最低计算复杂度的同时,实现了最先进的泛化能力和鲁棒性。具体性能数据和对比基线需要在论文中进一步查找,但总体而言,ForMa在效率和精度上都优于现有方法。

🎯 应用场景

该研究成果可应用于数字取证、新闻真实性验证、图像版权保护等领域。通过快速准确地定位图像篡改区域,有助于识别虚假信息,维护网络安全,保护知识产权,具有重要的社会价值和应用前景。

📄 摘要(原文)

Current image tampering localization methods primarily rely on Convolutional Neural Networks (CNNs) and Transformers. While CNNs suffer from limited local receptive fields, Transformers offer global context modeling at the expense of quadratic computational complexity. Recently, the state space model Mamba has emerged as a competitive alternative, enabling linear-complexity global dependency modeling. Inspired by it, we propose a lightweight and effective FORensic network based on vision MAmba (ForMa) for blind image tampering localization. Firstly, ForMa captures multi-scale global features that achieves efficient global dependency modeling through linear complexity. Then the pixel-wise localization map is generated by a lightweight decoder, which employs a parameter-free pixel shuffle layer for upsampling. Additionally, a noise-assisted decoding strategy is proposed to integrate complementary manipulation traces from tampered images, boosting decoder sensitivity to forgery cues. Experimental results on 10 standard datasets demonstrate that ForMa achieves state-of-the-art generalization ability and robustness, while maintaining the lowest computational complexity. Code is available at https://github.com/multimediaFor/ForMa.