Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection
作者: Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang
分类: cs.CV
发布日期: 2026-03-11
🔗 代码/项目: GITHUB
💡 一句话要点
提出潜在过渡差异(LTD)方法,提升合成图像检测的泛化能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 合成图像检测 生成对抗网络 扩散模型 泛化能力 层间一致性 潜在空间 深度学习
📋 核心要点
- 现有合成图像检测方法依赖模型特定伪影或低级统计线索,泛化能力差,难以应对新型生成模型。
- 论文提出潜在过渡差异(LTD)方法,通过分析图像潜在表示在网络层间的过渡一致性来区分真假图像。
- 实验表明,LTD在多个数据集上显著优于现有方法,平均准确率提升14.35%,具有更好的泛化性和鲁棒性。
📝 摘要(中文)
生成模型的快速发展显著提高了AI生成合成图像的逼真度和可访问性。虽然这促进了各种创新应用,但前所未有的真实感使得这些合成图像越来越难以与真实照片区分,从而带来了严重的安全风险,例如媒体可信度和内容操纵。尽管人们已经投入了大量精力来检测合成图像,但由于现有方法依赖于模型特定的伪影或低级统计线索,因此它们在未见过的数据上的泛化能力较差。本文发现了一个先前未被探索的区别,即真实图像在其潜在表示中保持一致的语义注意力和结构连贯性,在网络层间表现出更稳定的特征过渡,而合成图像则呈现出明显不同的模式。因此,我们提出了一种名为潜在过渡差异(LTD)的新方法,该方法捕获真实图像和合成图像的层间一致性差异。LTD自适应地识别最具区分性的层,并评估层间的过渡差异。受益于所提出的层间判别建模,我们的方法在包含各种GAN和DM的三个数据集上的平均准确率超过了基线模型14.35%。大量实验表明,LTD优于最新的方法,实现了卓越的检测精度、泛化性和鲁棒性。
🔬 方法详解
问题定义:现有合成图像检测方法泛化性不足,难以适应不断涌现的新型生成模型。这些方法通常依赖于特定生成模型产生的伪影或低级统计特征,当面对未知的生成模型时,性能会显著下降。因此,如何设计一种通用的、与模型无关的合成图像检测方法是一个关键问题。
核心思路:论文的核心思路是利用真实图像和合成图像在深度神经网络的潜在空间中表现出的不同层间一致性。真实图像在不同网络层之间具有更稳定的语义注意力和结构连贯性,而合成图像则表现出更明显的差异。通过捕捉这种层间过渡差异,可以有效地识别合成图像。
技术框架:LTD方法主要包含以下几个阶段:1) 特征提取:使用预训练的深度神经网络(如ResNet)提取图像在不同网络层的特征表示。2) 层选择:自适应地选择最具区分性的网络层,以减少冗余信息并提高效率。3) 过渡差异计算:计算所选层之间的特征过渡差异,捕捉层间一致性的变化。4) 分类:使用分类器(如线性SVM)基于计算出的过渡差异来区分真实图像和合成图像。
关键创新:LTD方法的关键创新在于其关注点从图像的表面伪影转移到图像在深度神经网络潜在空间中的层间一致性。这种方法不依赖于特定的生成模型,因此具有更好的泛化能力。此外,自适应层选择机制能够有效地提取最具区分性的特征,进一步提升检测性能。
关键设计:LTD的关键设计包括:1) 自适应层选择:使用一种基于方差分析的方法来选择最具区分性的网络层。具体来说,计算每一层特征的方差,并选择方差最大的若干层。2) 过渡差异计算:使用余弦相似度来衡量不同层之间的特征过渡差异。具体来说,计算相邻两层特征之间的余弦相似度,并将其作为过渡差异的度量。3) 损失函数:使用交叉熵损失函数来训练分类器,以最小化分类误差。
🖼️ 关键图片
📊 实验亮点
LTD方法在三个包含不同GAN和扩散模型的数据集上进行了评估,结果表明,LTD显著优于现有的合成图像检测方法,平均准确率提升了14.35%。此外,实验还证明了LTD具有更好的泛化性和鲁棒性,能够有效应对未知的生成模型和各种图像处理操作。
🎯 应用场景
该研究成果可应用于图像取证、媒体内容真实性验证、社交媒体内容审核等领域。通过检测AI生成的合成图像,可以有效防止虚假信息的传播,维护网络安全和信息安全,提升公众对媒体内容的信任度。未来,该技术还可扩展到视频、音频等其他模态的合成内容检测。
📄 摘要(原文)
Recent rapid advancement of generative models has significantly improved the fidelity and accessibility of AI-generated synthetic images. While enabling various innovative applications, the unprecedented realism of these synthetics makes them increasingly indistinguishable from authentic photographs, posing serious security risks, such as media credibility and content manipulation. Although extensive efforts have been dedicated to detecting synthetic images, most existing approaches suffer from poor generalization to unseen data due to their reliance on model-specific artifacts or low-level statistical cues. In this work, we identify a previously unexplored distinction that real images maintain consistent semantic attention and structural coherence in their latent representations, exhibiting more stable feature transitions across network layers, whereas synthetic ones present discernible distinct patterns. Therefore, we propose a novel approach termed latent transition discrepancy (LTD), which captures the inter-layer consistency differences of real and synthetic images. LTD adaptively identifies the most discriminative layers and assesses the transition discrepancies across layers. Benefiting from the proposed inter-layer discriminative modeling, our approach exceeds the base model by 14.35\% in mean Acc across three datasets containing diverse GANs and DMs. Extensive experiments demonstrate that LTD outperforms recent state-of-the-art methods, achieving superior detection accuracy, generalizability, and robustness. The code is available at https://github.com/yywencs/LTD