Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization

📄 arXiv: 2412.13753v1 📥 PDF

作者: Xuekang Zhu, Xiaochen Ma, Lei Su, Zhuohang Jiang, Bo Du, Xiwen Wang, Zeyu Lei, Wentao Feng, Chi-Man Pun, Jizhe Zhou

分类: cs.CV

发布日期: 2024-12-18

备注: AAAI 2025. Code: $\href{https://github.com/scu-zjz/Mesorch}{this~url}$


💡 一句话要点

提出Mesorch架构,通过多尺度混合建模提升图像篡改定位性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像篡改定位 中观表示 多尺度学习 混合架构 Transformer 卷积神经网络 数字取证

📋 核心要点

  1. 现有图像篡改定位方法侧重于微观痕迹或宏观语义,忽略了两者之间的联系。
  2. Mesorch架构并行结合Transformer和CNN,分别提取宏观信息和微观细节,构建图像的中观表示。
  3. 实验结果表明,该模型在多个数据集上超越了现有最先进方法,并在性能、复杂度和鲁棒性方面均有提升。

📝 摘要(中文)

中观层面连接宏观与微观世界,弥补了两者忽略的差距。图像篡改定位(IML)是一项从伪造图像中追寻真相的关键技术,长期以来依赖于低级(微观层面)的痕迹。然而,在实践中,大多数篡改旨在通过改变图像语义来欺骗观众。因此,篡改通常发生在对象层面(宏观层面),这与微观痕迹同等重要。因此,将这两个层面整合到中观层面为IML研究提供了一个新的视角。受此启发,本文探讨了如何同时构建微观和宏观信息的中观表示以用于IML,并引入了Mesorch架构来协调两者。具体来说,该架构i)并行结合Transformer和CNN,Transformer提取宏观信息,CNN捕获微观细节,以及ii)探索不同尺度,无缝评估微观和宏观信息。此外,基于Mesorch架构,本文还介绍了两个旨在通过中观表示解决IML任务的基线模型。在四个数据集上的大量实验表明,我们的模型在性能、计算复杂度和鲁棒性方面均优于当前最先进水平。

🔬 方法详解

问题定义:图像篡改定位(IML)旨在识别图像中被篡改的区域。现有方法要么侧重于图像的低级噪声和伪影等微观痕迹,要么侧重于对象级别的宏观语义变化。然而,篡改往往发生在宏观对象层面,同时也伴随着微观痕迹。现有方法未能有效整合这两个层面的信息,导致定位精度受限。

核心思路:本文的核心思路是构建图像的中观表示,即同时考虑微观细节和宏观语义信息。通过并行使用Transformer和CNN,分别提取宏观和微观特征,并将这些特征融合,从而更全面地理解图像内容,提高篡改定位的准确性。这种设计旨在弥合微观和宏观之间的差距,捕捉更丰富的篡改线索。

技术框架:Mesorch架构包含两个主要分支:Transformer分支和CNN分支。Transformer分支负责提取图像的全局语义信息,捕捉对象之间的关系和上下文。CNN分支则负责提取图像的局部细节特征,如噪声模式和边缘信息。这两个分支并行工作,提取的特征经过融合后,用于预测每个像素是否被篡改。整体流程包括图像输入、特征提取、特征融合和篡改预测四个阶段。

关键创新:Mesorch架构的关键创新在于其多尺度混合建模方法。它不是简单地堆叠CNN或Transformer,而是将两者并行结合,充分利用各自的优势。Transformer擅长捕捉全局依赖关系,而CNN擅长提取局部细节。这种混合架构能够更全面地理解图像内容,从而提高篡改定位的准确性。与现有方法相比,Mesorch架构能够更好地整合微观和宏观信息,从而更有效地检测篡改。

关键设计:Transformer分支采用预训练的视觉Transformer(ViT)作为骨干网络,并进行微调以适应IML任务。CNN分支采用ResNet或类似的网络结构,并进行相应的修改以提取局部特征。特征融合采用注意力机制,根据不同特征的重要性进行加权融合。损失函数采用二元交叉熵损失,用于衡量预测结果与真实标签之间的差异。具体的参数设置和网络结构根据不同的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Mesorch架构在四个公开数据集上均取得了优于现有最先进方法的性能。例如,在Coverage数据集上,F1-score提升了超过3个百分点。此外,该模型在计算复杂度和鲁棒性方面也表现出色,证明了其在实际应用中的潜力。消融实验验证了Transformer和CNN分支的有效性,以及特征融合策略的重要性。

🎯 应用场景

该研究成果可应用于数字取证、新闻真实性验证、社交媒体内容审核等领域。通过自动检测图像篡改,可以帮助识别虚假信息,维护网络安全,防止恶意传播和欺诈行为。未来,该技术有望与区块链等技术结合,构建更安全可靠的图像溯源系统。

📄 摘要(原文)

The mesoscopic level serves as a bridge between the macroscopic and microscopic worlds, addressing gaps overlooked by both. Image manipulation localization (IML), a crucial technique to pursue truth from fake images, has long relied on low-level (microscopic-level) traces. However, in practice, most tampering aims to deceive the audience by altering image semantics. As a result, manipulation commonly occurs at the object level (macroscopic level), which is equally important as microscopic traces. Therefore, integrating these two levels into the mesoscopic level presents a new perspective for IML research. Inspired by this, our paper explores how to simultaneously construct mesoscopic representations of micro and macro information for IML and introduces the Mesorch architecture to orchestrate both. Specifically, this architecture i) combines Transformers and CNNs in parallel, with Transformers extracting macro information and CNNs capturing micro details, and ii) explores across different scales, assessing micro and macro information seamlessly. Additionally, based on the Mesorch architecture, the paper introduces two baseline models aimed at solving IML tasks through mesoscopic representation. Extensive experiments across four datasets have demonstrated that our models surpass the current state-of-the-art in terms of performance, computational complexity, and robustness.