When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

📄 arXiv: 2603.09242v1 📥 PDF

作者: Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren

分类: cs.CV

发布日期: 2026-03-10


💡 一句话要点

提出几何语义解耦(GSD)模块,提升AI生成图像检测的泛化能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成图像检测 泛化能力 语义解耦 视觉基础模型 伪影检测

📋 核心要点

  1. 现有基于视觉基础模型(VFM)的AI生成图像检测器,在面对未知的生成流程时,泛化能力较差,容易失效。
  2. 论文提出几何语义解耦(GSD)模块,通过移除语义成分,迫使检测器关注语义不变的伪影特征,提升泛化性。
  3. 实验表明,GSD在跨数据集、未见过的操作以及通用场景图像检测中,均显著优于现有方法,提升了检测性能。

📝 摘要(中文)

随着生成式AI的快速发展,AI生成图像检测变得越来越重要。然而,基于视觉基础模型(VFMs,例如CLIP)构建的检测器通常难以泛化到使用未见过的生成流程创建的图像。我们首次发现了一个关键的失效机制,称为“语义回退”,即基于VFM的检测器在分布偏移下依赖于主要的预训练语义先验(例如身份),而不是伪造特定的痕迹。为了解决这个问题,我们提出了几何语义解耦(GSD),这是一个无参数模块,它通过利用冻结的VFM作为语义指导,以及可训练的VFM作为伪影检测器,显式地从学习的表示中移除语义组件。GSD从批次统计中估计语义方向,并通过几何约束将其投影出去,迫使伪影检测器依赖于语义不变的取证证据。大量的实验表明,我们的方法始终优于最先进的方法,在跨数据集评估中实现了94.4%的视频级AUC(+1.2%),提高了对未见过的操作的鲁棒性(在DF40上+3.0%),并将泛化能力扩展到通用场景的合成图像检测,包括UniversalFakeDetect(+0.9%)和GenImage(+1.7%)。

🔬 方法详解

问题定义:现有基于视觉基础模型(VFM)的AI生成图像检测器,在面对分布偏移时,容易依赖预训练的语义先验(如人脸身份),而忽略了伪造图像特有的痕迹。这种“语义回退”现象导致检测器在面对未知的生成流程时,泛化能力显著下降,无法有效检测AI生成的图像。

核心思路:论文的核心思路是通过解耦图像表示中的语义信息和伪影信息,迫使检测器专注于语义不变的伪影特征。具体来说,通过几何约束,将学习到的表示投影到与语义方向正交的空间中,从而移除语义成分,使检测器能够更好地识别伪造图像的痕迹。

技术框架:整体框架包含一个可训练的VFM作为伪影检测器,以及一个冻结的VFM作为语义指导。GSD模块位于可训练VFM的特征提取层之后,用于解耦语义信息。GSD模块首先利用冻结的VFM提取语义特征,然后计算批次内的语义方向。最后,通过几何投影,将可训练VFM提取的特征投影到与语义方向正交的空间中。

关键创新:论文的关键创新在于提出了几何语义解耦(GSD)模块,它是一种无参数的方法,能够显式地从学习的表示中移除语义成分。与现有方法不同,GSD不依赖于特定的生成流程或操作,而是通过几何约束,迫使检测器关注语义不变的伪影特征,从而提高了检测器的泛化能力。

关键设计:GSD模块的关键设计在于利用冻结的VFM作为语义指导,以及通过批次统计估计语义方向。冻结的VFM保证了语义信息的稳定性,而批次统计则能够适应不同的数据分布。几何投影的具体实现方式为:首先计算批次内特征的均值,然后计算每个样本的语义方向,最后将特征投影到与语义方向正交的空间中。该过程不引入任何可训练参数,保证了GSD的通用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSD在跨数据集评估中实现了94.4%的视频级AUC,相比现有最佳方法提升了1.2%。在DF40数据集上,GSD对未见过的操作的鲁棒性提升了3.0%。此外,GSD还成功地将泛化能力扩展到通用场景的合成图像检测,在UniversalFakeDetect和GenImage数据集上分别提升了0.9%和1.7%。

🎯 应用场景

该研究成果可应用于各种需要检测AI生成图像的场景,例如社交媒体平台的内容审核、新闻媒体的真实性验证、以及金融领域的欺诈检测等。通过提高AI生成图像检测的泛化能力,可以有效防止虚假信息的传播,维护网络安全和社会稳定。

📄 摘要(原文)

AI-generated image detection has become increasingly important with the rapid advancement of generative AI. However, detectors built on Vision Foundation Models (VFMs, \emph{e.g.}, CLIP) often struggle to generalize to images created using unseen generation pipelines. We identify, for the first time, a key failure mechanism, termed \emph{semantic fallback}, where VFM-based detectors rely on dominant pre-trained semantic priors (such as identity) rather than forgery-specific traces under distribution shifts. To address this issue, we propose \textbf{Geometric Semantic Decoupling (GSD)}, a parameter-free module that explicitly removes semantic components from learned representations by leveraging a frozen VFM as a semantic guide with a trainable VFM as an artifact detector. GSD estimates semantic directions from batch-wise statistics and projects them out via a geometric constraint, forcing the artifact detector to rely on semantic-invariant forensic evidence. Extensive experiments demonstrate that our method consistently outperforms state-of-the-art approaches, achieving 94.4\% video-level AUC (+\textbf{1.2\%}) in cross-dataset evaluation, improving robustness to unseen manipulations (+\textbf{3.0\%} on DF40), and generalizing beyond faces to the detection of synthetic images of general scenes, including UniversalFakeDetect (+\textbf{0.9\%}) and GenImage (+\textbf{1.7\%}).