EfficientIML: Efficient High-Resolution Image Manipulation Localization

📄 arXiv: 2509.08583v1 📥 PDF

作者: Jinhan Li, Haoyang He, Lei Xie, Jiangning Zhang

分类: cs.CV

发布日期: 2025-09-10


💡 一句话要点

提出EfficientIML模型,高效定位高分辨率图像中基于扩散模型的篡改区域。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像篡改检测 高分辨率图像 扩散模型 EfficientRWKV 状态空间模型

📋 核心要点

  1. 现有图像篡改检测方法难以有效处理高分辨率图像,且缺乏对基于扩散模型生成的新型篡改的识别能力。
  2. EfficientIML模型采用轻量级EfficientRWKV骨干网络,结合混合状态空间和注意力机制,并行捕获全局上下文和局部细节。
  3. 实验结果表明,EfficientIML在定位精度、计算效率和推理速度上均优于现有方法,更适用于实时取证应用。

📝 摘要(中文)

随着成像设备分辨率的不断提高和基于扩散的伪造方法的出现,目前仅在传统数据集(包含拼接、复制-移动和对象移除伪造)上训练的检测器缺乏对这种新型篡改的识别能力。为了解决这个问题,我们提出了一个包含1200+个扩散生成篡改的高分辨率SIF数据集,并带有语义提取的掩码。然而,这也对现有方法提出了挑战,因为它们面临着由于其过高的计算复杂度而导致的显著计算资源限制。因此,我们提出了一种新型的EfficientIML模型,该模型具有轻量级的三阶段EfficientRWKV骨干网络。EfficientRWKV的混合状态空间和注意力网络并行捕获全局上下文和局部细节,而多尺度监督策略则强制执行跨层级预测的一致性。在我们数据集和标准基准上的大量评估表明,我们的方法在定位性能、FLOPs和推理速度方面优于基于ViT的和其它SOTA轻量级基线,突显了其适用于实时取证应用。

🔬 方法详解

问题定义:当前图像篡改定位方法在高分辨率图像上计算复杂度过高,难以满足实时性需求。同时,现有方法主要针对拼接、复制-移动等传统篡改方式设计,对于新兴的基于扩散模型生成的图像篡改缺乏有效检测能力。这些痛点限制了篡改检测技术在实际场景中的应用。

核心思路:EfficientIML的核心思路是设计一个轻量级且高效的骨干网络,能够在高分辨率图像上快速准确地定位篡改区域。通过结合状态空间模型和注意力机制,模型能够同时捕获全局上下文信息和局部细节特征,从而提高篡改定位的准确性。此外,多尺度监督策略能够进一步提升模型性能。

技术框架:EfficientIML模型采用三阶段的EfficientRWKV骨干网络。第一阶段提取图像的浅层特征;第二阶段利用EfficientRWKV模块进行特征融合,并行捕获全局上下文和局部细节;第三阶段进行多尺度预测,并采用多尺度监督策略,强制执行跨层级预测的一致性。整个框架旨在实现高精度和高效率的篡改定位。

关键创新:EfficientIML的关键创新在于采用了EfficientRWKV作为骨干网络。EfficientRWKV是一种混合状态空间和注意力机制的网络结构,它能够以较低的计算成本有效地捕获长距离依赖关系和局部细节。这种设计使得EfficientIML在保持较高定位精度的同时,显著降低了计算复杂度,提高了推理速度。此外,针对扩散模型生成篡改的特性,设计了新的高分辨率数据集。

关键设计:EfficientRWKV模块是EfficientIML的核心组成部分,其具体实现细节包括状态空间模型的参数设置、注意力机制的头数和维度等。多尺度监督策略通过在不同尺度的特征图上添加辅助损失函数,来提高模型的鲁棒性和泛化能力。损失函数的设计也至关重要,通常采用二元交叉熵损失或Dice损失来衡量预测掩码与真实掩码之间的差异。

📊 实验亮点

EfficientIML在自建的高分辨率SIF数据集和标准基准测试集上均取得了优异的性能。相较于基于ViT的基线方法,EfficientIML在定位精度上取得了显著提升,同时FLOPs和推理速度也得到了大幅优化。实验结果表明,EfficientIML在保证定位精度的前提下,能够实现实时篡改检测,更适用于实际应用场景。

🎯 应用场景

EfficientIML可应用于数字取证、新闻真实性验证、图像版权保护等领域。该模型能够快速准确地定位图像中的篡改区域,帮助用户识别和鉴别伪造图像,维护网络安全和社会稳定。未来,该技术有望集成到各种图像处理软件和在线平台中,为用户提供便捷的图像真伪鉴别服务。

📄 摘要(原文)

With imaging devices delivering ever-higher resolutions and the emerging diffusion-based forgery methods, current detectors trained only on traditional datasets (with splicing, copy-moving and object removal forgeries) lack exposure to this new manipulation type. To address this, we propose a novel high-resolution SIF dataset of 1200+ diffusion-generated manipulations with semantically extracted masks. However, this also imposes a challenge on existing methods, as they face significant computational resource constraints due to their prohibitive computational complexities. Therefore, we propose a novel EfficientIML model with a lightweight, three-stage EfficientRWKV backbone. EfficientRWKV's hybrid state-space and attention network captures global context and local details in parallel, while a multi-scale supervision strategy enforces consistency across hierarchical predictions. Extensive evaluations on our dataset and standard benchmarks demonstrate that our approach outperforms ViT-based and other SOTA lightweight baselines in localization performance, FLOPs and inference speed, underscoring its suitability for real-time forensic applications.