TAP into the Patch Tokens: Leveraging Vision Foundation Model Features for AI-Generated Image Detection

作者: Ahmed Abdullah, Nikolas Ebert, Oliver Wasenmüller

分类: cs.CV

发布日期: 2026-04-29

备注: This paper has been accepted at IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2026

💡 一句话要点

利用视觉基础模型特征，提出TAP以提升AI生成图像检测性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成图像检测 视觉基础模型 可调注意力池化 图像取证 深度学习

📋 核心要点

现有AI生成图像检测方法依赖于特定模型，泛化能力不足，难以应对新型生成模型。
提出可调注意力池化（TAP）模块，有效聚合视觉基础模型（VFM）的patch tokens特征，提升图像表征能力。
实验表明，结合TAP的VFM在多个AIGI检测基准上超越现有方法，尤其在野外数据集上表现突出。

📝 摘要（中文）

现有方法表明，大规模预训练模型（如CLIP视觉Transformer）可用作特征提取器，有效检测来自未知生成模型的AI生成图像（AIGI）。许多最先进的AIGI检测方法都基于原始CLIP-ViT来增强泛化能力。自CLIP发布以来，涌现了许多视觉基础模型（VFM），它们融合了架构改进和不同的训练范式。然而，它们在AIGI检测和AI图像取证方面的潜力在很大程度上尚未被探索。本文对多个VFM系列进行了全面基准测试，涵盖了不同的预训练目标、输入分辨率和模型规模。系统地评估了它们在检测完全生成的AI图像和AI修复图像方面的开箱即用性能，发现最佳模型在准确率方面超过原始CLIP 12%以上，击败了已有的方法。为了充分利用现代VFM的特征，本文提出了一种简单的分类器头部重新设计，即利用可调注意力池化（TAP），将输出tokens聚合为精细的全局表示。将TAP与最新的VFM集成，在多个AIGI检测基准测试中产生了显著的性能提升，在两个具有挑战性的AI生成和修复图像的野外检测基准测试中建立了新的最先进水平。

🔬 方法详解

问题定义：论文旨在解决AI生成图像（AIGI）检测问题，特别是针对未见过的生成模型和AI修复图像的检测。现有方法，尤其是基于CLIP的方法，虽然有效，但未能充分利用新兴的视觉基础模型（VFMs）的潜力，并且在野外数据集上的泛化能力有待提高。

核心思路：论文的核心思路是充分利用现代VFMs提取的patch tokens特征，并设计一种有效的聚合机制，将这些tokens转化为更具判别性的全局图像表示。通过可调注意力池化（TAP），模型能够自适应地学习不同patch的重要性，从而更好地捕捉AIGI的细微特征。

技术框架：整体框架包括三个主要步骤：1) 使用不同的VFMs（如CLIP、DINOv2等）提取图像的patch tokens特征；2) 将提取的tokens输入到TAP模块中，进行加权聚合，生成全局图像表示；3) 使用一个简单的分类器（如线性层）基于全局表示进行AIGI的二分类。

关键创新：论文的关键创新在于TAP模块的设计。TAP模块通过可学习的注意力权重，自适应地聚合VFMs输出的patch tokens，从而生成更鲁棒和具有判别性的图像表示。与传统的平均池化或最大池化相比，TAP能够更好地捕捉AIGI的细微差异。

关键设计：TAP模块包含一个可学习的query向量，用于计算每个patch token的注意力权重。具体来说，每个patch token与query向量进行点积运算，然后通过softmax函数归一化，得到注意力权重。这些权重用于加权求和patch tokens，得到最终的全局图像表示。query向量是TAP模块中唯一的可学习参数，使得TAP模块非常轻量级，易于集成到不同的VFMs中。

🖼️ 关键图片

📊 实验亮点

实验结果表明，结合TAP的VFMs在多个AIGI检测基准上取得了显著的性能提升。例如，在野外AI生成图像检测基准上，最佳模型超过原始CLIP 12%以上的准确率，并在AI修复图像检测任务中也取得了state-of-the-art的结果。TAP模块的引入显著提升了VFMs在AIGI检测任务中的泛化能力和鲁棒性。

🎯 应用场景

该研究成果可应用于数字媒体内容安全领域，例如检测社交媒体平台上的AI生成虚假信息、识别恶意篡改的图像，以及辅助版权保护。通过提高AI生成图像的检测精度，有助于维护网络空间的真实性和可信度，降低虚假信息传播的风险。

📄 摘要（原文）

Recent methods demonstrate that large-scale pretrained models, such as CLIP vision transformers, effectively detect AI-generated images (AIGIs) from unseen generative models when used as feature extractors. Many state-of-the-art methods for AI-generated image detection build upon the original CLIP-ViT to enhance this generalization. Since CLIP's release, numerous vision foundation models (VFMs) have emerged, incorporating architectural improvements and different training paradigms. Despite these advances, their potential for AIGI detection and AI image forensics remains largely unexplored. In this work, we present a comprehensive benchmark across multiple VFM families, covering diverse pretraining objectives, input resolutions, and model scales. We systematically evaluate their out-of-the-box performance for detecting fully-generated AI-images and AI-inpainted images, and discover that the best model outperforms the original CLIP by more than 12% in accuracy, beating established approaches in the process. To fully leverage the features of a modern VFM, we propose a simple redesign of the classifier head by utilizing tunable attention pooling (TAP), which aggregates output tokens into a refined global representation. Integrating TAP with the latest VFMs yields substantial performance gains across several AIGI detection benchmarks, establishing a new state-of-the-art on two challenging benchmarks for in-the-wild detection of AI-generated and -inpainted images.

TAP into the Patch Tokens: Leveraging Vision Foundation Model Features for AI-Generated Image Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理