Frequency-Aware Semantic Fusion with Gated Injection for AI-generated Image Detection

作者: Shuchang Zhou, Shangkun Wu, Jiwei Wei, Ke Liu, Ran Ran, Caiyan Qin, Yang Yang

分类: cs.CV

发布日期: 2026-04-30

💡 一句话要点

提出频率感知门控注入网络FGINet，提升AI生成图像检测的泛化性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成图像检测 频率分析 视觉基础模型 泛化能力 门控机制

📋 核心要点

现有AI生成图像检测方法在未见过的生成模型上泛化性差，主要原因是模型容易学习到特定生成器的频率捷径。
论文提出频率感知门控注入网络(FGINet)，通过频率掩码和门控注入，减少对特定生成器模式的依赖，缓解表示冲突。
实验结果表明，FGINet在多个数据集上实现了最先进的性能，并展现出强大的泛化能力。

📝 摘要（中文）

AI生成图像日益逼真和多样化，对通用检测提出了重大挑战。虽然视觉基础模型(VFMs)提供了丰富的语义表示，并且基于频率的方法捕获了互补的伪影线索，但现有结合这些模态的方法仍然受到泛化能力有限的困扰，在未见过的生成模型上性能显著下降。我们将这种局限性归因于两个关键因素：频率捷径偏向于与特定生成器相关的易于区分的线索，以及高层语义和低层频率模式之间的跨域表示冲突。为了解决这些问题，我们提出了一种频率感知门控注入网络(FGINet)来提高泛化能力。具体来说，我们设计了一个带掩码的频率编码器(BMFE)，它在频域中应用跨带掩码，以减少对特定生成器模式的依赖，并鼓励更多样化和通用的表示。我们进一步引入了一种分层门控频率注入(LGFI)机制，以自适应门控的方式将频率线索逐步注入到VFM骨干网络中，与其分层抽象对齐并缓解表示冲突。此外，我们提出了一个具有余弦边距目标的高球紧致性学习(HCL)框架，以学习紧凑且分离良好的表示。大量的实验表明，FGINet在多个具有挑战性的数据集上实现了最先进的性能和强大的泛化能力。

🔬 方法详解

问题定义：现有AI生成图像检测方法在面对未知的生成模型时，泛化能力不足。这些方法容易学习到特定生成器产生的频率伪影，从而形成频率捷径，导致模型在训练集上表现良好，但在测试集上性能下降。此外，高层语义信息和低层频率信息之间存在表示冲突，进一步限制了模型的泛化能力。

核心思路：论文的核心思路是通过解耦频率信息中与特定生成器相关的模式，并自适应地将频率信息融入到视觉基础模型(VFM)中，从而提高模型的泛化能力。具体来说，通过频率掩码减少模型对特定生成器频率模式的依赖，并通过门控机制控制频率信息注入的强度，以缓解语义信息和频率信息之间的冲突。

技术框架：FGINet的整体框架包括三个主要模块：带掩码的频率编码器(BMFE)、分层门控频率注入(LGFI)和高球紧致性学习(HCL)。首先，BMFE对输入图像进行频率编码，并应用跨带掩码以减少对特定生成器模式的依赖。然后，LGFI将BMFE提取的频率特征逐层注入到VFM骨干网络中，并使用门控机制自适应地控制注入的强度。最后，HCL使用余弦边距目标函数，学习紧凑且分离良好的特征表示。

关键创新：该论文的关键创新在于以下几点：(1) 提出了带掩码的频率编码器(BMFE)，通过在频域中应用跨带掩码，减少模型对特定生成器频率模式的依赖，从而提高模型的泛化能力。(2) 提出了分层门控频率注入(LGFI)机制，通过门控机制自适应地控制频率信息注入的强度，缓解语义信息和频率信息之间的冲突。(3) 提出了高球紧致性学习(HCL)框架，通过余弦边距目标函数，学习紧凑且分离良好的特征表示。

关键设计：BMFE使用离散余弦变换(DCT)将图像转换到频域，然后将频率划分为不同的频带，并随机掩盖部分频带。LGFI使用门控机制控制频率特征的注入强度，门控值由VFM骨干网络的特征图计算得到。HCL使用余弦边距目标函数，鼓励类内样本更加紧凑，类间样本更加分离。具体来说，损失函数包括交叉熵损失和余弦边距损失两部分。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FGINet在多个数据集上实现了最先进的性能。例如，在DFDC数据集上，FGINet的AUC指标达到了98.5%，超过了现有最佳方法。此外，FGINet在未见过的生成模型上表现出强大的泛化能力，显著优于其他方法。消融实验验证了BMFE、LGFI和HCL等模块的有效性。

🎯 应用场景

该研究成果可应用于AI生成内容检测、版权保护、网络安全等领域。通过提高AI生成图像检测的准确性和泛化性，可以有效识别和防止恶意AI生成内容的传播，维护网络空间的健康和安全。此外，该技术还可以用于检测深度伪造视频，防止虚假信息的传播。

📄 摘要（原文）

AI-generated images are becoming increasingly realistic and diverse, posing significant challenges for generalizable detection. While Vision Foundation Models (VFMs) provide rich semantic representations and frequency-based methods capture complementary artifact cues, existing approaches that combine these modalities still suffer from limited generalization, with notable performance degradation on unseen generative models. We attribute this limitation to two key factors: frequency shortcut bias toward easily distinguishable cues associated with specific generators and cross-domain representation conflict between high-level semantics and low-level frequency patterns. To address these issues, we propose a Frequency-aware Gated Injection Network (FGINet) to improve generalization. Specifically, we design a Band-Masked Frequency Encoder (BMFE) that applies cross-band masking in the frequency domain to reduce reliance on generator-specific patterns and encourage more diverse and generalizable representations. We further introduce a Layer-wise Gated Frequency Injection (LGFI) mechanism to progressively inject frequency cues into the VFM backbone with adaptive gating, aligning with its hierarchical abstraction and alleviating representation conflict. Moreover, we propose a Hyperspherical Compactness Learning (HCL) framework with a cosine margin objective to learn compact and well-separated representations. Extensive experiments demonstrate that FGINet achieves state-of-the-art performance and strong generalization across multiple challenging datasets.

Frequency-Aware Semantic Fusion with Gated Injection for AI-generated Image Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理