Multimodal Conditional Information Bottleneck for Generalizable AI-Generated Image Detection

📄 arXiv: 2505.15217v1 📥 PDF

作者: Haotian Qin, Dongliang Chang, Yueying Gao, Bingyao Yu, Lei Chen, Zhanyu Ma

分类: cs.CV

发布日期: 2025-05-21

备注: 24 pages, 16 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出多模态条件信息瓶颈网络InfoFD,提升AI生成图像检测的泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成图像检测 信息瓶颈 CLIP 多模态学习 泛化能力

📋 核心要点

  1. 现有基于CLIP的AI生成图像检测方法存在特征冗余问题,限制了模型的泛化能力。
  2. 提出InfoFD框架,利用文本引导的条件信息瓶颈(TGCIB)和动态文本正交化(DTO)来减少特征冗余,增强判别能力。
  3. 实验表明,InfoFD在GenImage数据集和最新的生成模型上实现了优异的泛化性能。

📝 摘要(中文)

现有的基于CLIP的AI生成图像检测方法虽然取得了不错的效果,但仍然受到严重的特征冗余的限制,这阻碍了它们的泛化能力。为了解决这个问题,将信息瓶颈网络融入到该任务中是一个直接的解决方案。然而,由于提示的多样性,仅仅依赖于图像对应的提示会导致次优的性能。本文提出了一种多模态条件瓶颈网络,以减少特征冗余,同时增强CLIP提取的特征的判别能力,从而提高模型的泛化能力。我们首先进行了一个语义分析实验,观察到在CLIP特征空间中,任意文本特征与真实图像特征的余弦相似度低于与虚假图像特征的余弦相似度,我们称之为“偏差”。因此,我们提出了InfoFD,一个文本引导的AI生成图像检测框架。InfoFD由两个关键组件组成:文本引导的条件信息瓶颈(TGCIB)和动态文本正交化(DTO)。TGCIB通过以文本和类别模态为条件,提高了学习表征的泛化能力。DTO动态更新加权文本特征,在保留语义信息的同时,利用全局“偏差”。我们的模型在GenImage数据集和最新的生成模型上取得了出色的泛化性能。我们的代码可在https://github.com/Ant0ny44/InfoFD 获取。

🔬 方法详解

问题定义:现有基于CLIP的AI生成图像检测方法,虽然在特定数据集上表现良好,但由于特征冗余,导致模型在面对新的、未知的生成模型时,泛化能力显著下降。核心痛点在于如何有效去除冗余信息,同时保留判别性特征,从而提升模型的鲁棒性。

核心思路:论文的核心思路是利用信息瓶颈(Information Bottleneck, IB)原理,通过限制模型学习到的特征的信息量,迫使模型学习更紧凑、更具判别性的特征表示。同时,考虑到文本提示的多样性,引入文本信息作为条件,引导信息瓶颈的学习过程,从而更好地适应不同的生成图像。此外,还利用了真实图像和AI生成图像在CLIP特征空间中的“偏差”现象,进一步提升判别能力。

技术框架:InfoFD框架主要包含两个核心模块:文本引导的条件信息瓶颈(TGCIB)和动态文本正交化(DTO)。TGCIB模块接收图像特征、文本特征和类别信息作为输入,通过条件信息瓶颈网络,学习到压缩后的图像特征表示。DTO模块则动态更新文本特征,以更好地利用真实图像和AI生成图像之间的“偏差”。整个流程可以概括为:首先,利用CLIP提取图像和文本特征;然后,将图像特征输入TGCIB模块进行特征压缩;同时,利用DTO模块动态更新文本特征;最后,将压缩后的图像特征和更新后的文本特征输入分类器,进行AI生成图像的判别。

关键创新:该论文的关键创新在于:1) 提出了文本引导的条件信息瓶颈(TGCIB),将文本信息和类别信息作为条件,引导信息瓶颈的学习过程,从而更好地适应不同的生成图像,提升泛化能力。2) 提出了动态文本正交化(DTO),利用真实图像和AI生成图像在CLIP特征空间中的“偏差”现象,动态更新文本特征,进一步提升判别能力。与现有方法相比,InfoFD不仅考虑了图像特征的冗余问题,还充分利用了文本信息和CLIP特征空间的特性,从而实现了更好的泛化性能。

关键设计:TGCIB模块的关键设计在于如何有效地融合文本信息和类别信息。具体来说,作者可能采用了注意力机制或者条件归一化等方法,将文本特征和类别信息融入到信息瓶颈网络的学习过程中。DTO模块的关键设计在于如何动态更新文本特征,以更好地利用真实图像和AI生成图像之间的“偏差”。具体来说,作者可能采用了加权平均或者梯度下降等方法,根据图像特征和文本特征之间的相似度,动态调整文本特征的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,InfoFD在GenImage数据集和最新的生成模型上取得了显著的性能提升。具体来说,InfoFD在多个评估指标上均优于现有的基于CLIP的方法,并且在面对新的、未知的生成模型时,表现出更强的泛化能力。这些结果验证了InfoFD的有效性和优越性。

🎯 应用场景

该研究成果可应用于内容安全领域,例如检测社交媒体平台上的AI生成虚假信息、识别恶意软件生成的对抗样本等。此外,该技术还可以用于版权保护,帮助识别未经授权的AI生成图像。未来,该技术有望进一步发展,应用于更广泛的图像鉴别和内容审核场景。

📄 摘要(原文)

Although existing CLIP-based methods for detecting AI-generated images have achieved promising results, they are still limited by severe feature redundancy, which hinders their generalization ability. To address this issue, incorporating an information bottleneck network into the task presents a straightforward solution. However, relying solely on image-corresponding prompts results in suboptimal performance due to the inherent diversity of prompts. In this paper, we propose a multimodal conditional bottleneck network to reduce feature redundancy while enhancing the discriminative power of features extracted by CLIP, thereby improving the model's generalization ability. We begin with a semantic analysis experiment, where we observe that arbitrary text features exhibit lower cosine similarity with real image features than with fake image features in the CLIP feature space, a phenomenon we refer to as "bias". Therefore, we introduce InfoFD, a text-guided AI-generated image detection framework. InfoFD consists of two key components: the Text-Guided Conditional Information Bottleneck (TGCIB) and Dynamic Text Orthogonalization (DTO). TGCIB improves the generalizability of learned representations by conditioning on both text and class modalities. DTO dynamically updates weighted text features, preserving semantic information while leveraging the global "bias". Our model achieves exceptional generalization performance on the GenImage dataset and latest generative models. Our code is available at https://github.com/Ant0ny44/InfoFD.