Comparative Evaluation of Deep Learning Models for Fake Image Detection

📄 arXiv: 2605.20971v1 📥 PDF

作者: Akhitha Pakala, Mohammed Mahir Rahman, Shahzad Memon, Tauseef Ahmed

分类: cs.CV, cs.AI, cs.CR

发布日期: 2026-05-20

备注: Accepted at ICCIIoT26 and waiting to be indexed

期刊: 6th International Conference on Computational Intelligence & Internet of Things (ICCIIoT), 2026


💡 一句话要点

对比评估深度学习模型在伪图像检测中的性能,VGG16取得最高准确率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 伪图像检测 深度学习 卷积神经网络 图像处理 数字取证

📋 核心要点

  1. 基于GAN的图像篡改日益复杂,对数字取证构成严峻挑战,现有方法在跨域泛化能力上存在不足。
  2. 本研究对比VGG16等四种预训练CNN模型在伪图像检测中的性能,旨在寻找更有效的检测模型。
  3. 实验结果表明,VGG16在统一的预处理和训练流程下取得了最高的准确率,为后续研究提供了基线。

📝 摘要(中文)

本研究对比了四种预训练CNN架构(VGG16、ResNet50、EfficientNetB0和XceptionNet)在伪图像检测中的性能,采用统一的预处理和训练流程。通过调整大小、归一化和数据增强等方法处理包含真实图像和伪造图像的数据集,以解决类别不平衡问题并提高泛化能力。使用准确率、精确率、召回率、F1分数和ROC-AUC等指标评估模型。VGG16实现了最高的准确率91%,XceptionNet、ResNet50和EfficientNetB0均达到90%。EfficientNetB0对伪造图像表现出更强的敏感性,但对真实样本的可靠性降低,反映了由不平衡数据集引起的偏差。研究强调了平衡数据集、高级数据增强和公平感知训练对于开发可靠的伪图像检测系统的重要性,并提供了一个可复现的基线。

🔬 方法详解

问题定义:论文旨在解决日益增长的GAN生成伪图像对数字取证带来的挑战。现有方法在处理类别不平衡的数据集、防止过拟合以及实现良好的跨域泛化能力方面存在痛点。这些问题限制了伪图像检测系统的可靠性和实用性。

核心思路:论文的核心思路是对比评估不同的预训练CNN架构在伪图像检测任务中的性能,通过统一的预处理和训练流程,消除因训练方式不同带来的偏差,从而更客观地评估各个模型的优劣。选择预训练模型可以利用在大规模数据集上学习到的通用特征,加速训练并提高性能。

技术框架:整体框架包括数据预处理、模型训练和性能评估三个主要阶段。数据预处理阶段包括图像大小调整、归一化和数据增强,旨在解决类别不平衡问题并提高模型的泛化能力。模型训练阶段使用预处理后的数据对VGG16、ResNet50、EfficientNetB0和XceptionNet进行微调。性能评估阶段使用准确率、精确率、召回率、F1分数和ROC-AUC等指标对训练好的模型进行评估。

关键创新:本研究的关键创新在于对多种主流CNN架构在统一的实验框架下进行了对比评估,为伪图像检测任务提供了一个可复现的基线。此外,研究还强调了数据集平衡、数据增强和公平感知训练的重要性,为未来研究指明了方向。

关键设计:数据增强策略包括随机旋转、缩放和平移等操作,以增加数据的多样性并减少过拟合。损失函数采用标准的交叉熵损失函数。模型训练采用Adam优化器,学习率设置为一个较小的值,以防止过拟合。数据集被划分为训练集、验证集和测试集,用于模型训练、超参数调整和性能评估。

📊 实验亮点

实验结果显示,VGG16在伪图像检测任务中取得了最高的准确率,达到91%,XceptionNet、ResNet50和EfficientNetB0的准确率也达到了90%。EfficientNetB0对伪造图像表现出更强的敏感性,但对真实样本的可靠性较低,这表明数据集不平衡会影响模型的性能。该研究为后续研究提供了可复现的基线。

🎯 应用场景

该研究成果可应用于数字媒体取证、社交媒体内容审核、新闻真实性验证等领域。通过自动检测伪造图像,可以有效遏制虚假信息的传播,维护网络安全和社会稳定。未来,该技术有望集成到各类内容发布平台,提升平台的公信力。

📄 摘要(原文)

The growing sophistication of GAN-based image manipulation presents significant challenges for digital forensics. This study compares the performance of four pretrained CNN architectures including VGG16, ResNet50, EfficientNetB0, and XceptionNet for fake image detection using a unified preprocessing and training pipeline. A dataset of real and manipulated images was processed through resizing, normalization, and augmentation to address class imbalance and improve generalization. Models were evaluated using Accuracy, Precision, Recall, F1-score, and ROC-AUC. VGG16 achieved the highest accuracy at 91%, with XceptionNet, ResNet50, and EfficientNetB0 each reaching 90%. EfficientNetB0 showed stronger sensitivity to fake images but reduced reliability on real samples, reflecting imbalance-driven bias. Limitations include dataset imbalance, overfitting, and limited interpretability, which affect cross-domain robustness. The study provides a reproducible baseline and underscores the need for balanced datasets, advanced augmentation, and fairness-aware training to develop reliable fake image detection systems.