Backbone is All You Need: Assessing Vulnerabilities of Frozen Foundation Models in Synthetic Image Forensics
作者: Chiara Musso, Joy Battocchio, Andrea Montibeller, Giulia Boato
分类: cs.CV, cs.MM
发布日期: 2026-05-13
💡 一句话要点
提出SIAA以解决冻结基础模型在合成图像取证中的脆弱性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 合成图像 深度伪造检测 对抗攻击 视觉变换器 灰盒攻击 多媒体取证 网络安全
📋 核心要点
- 现有的深度伪造检测方法过于依赖冻结的预训练骨干网络,导致其在对抗攻击下表现脆弱。
- 本文提出的SIAA方法利用检测器的ViT骨干知识,在特征空间内生成对抗样本,突破了传统检测方法的防御。
- 实验结果表明,SIAA在多种灰盒场景下均能实现高攻击成功率,显示出对抗攻击的有效性和普适性。
📝 摘要(中文)
随着AI生成的合成图像日益逼真,视觉变换器(ViTs)已成为现代深度伪造检测的基石。然而,依赖冻结的预训练骨干网络引入了微妙但关键的脆弱性。本文提出了一种替代迭代对抗攻击(SIAA),这是一种灰盒攻击,仅利用检测器的ViT骨干知识,并完全在目标检测器的特征空间内操作,以生成高效的对抗样本。通过对多种基于ViT的检测器和多样的灰盒场景进行实验,我们展示了这种脆弱性在高攻击成功率下的一致性,常常接近白盒性能。这一发现强调了对抗多媒体取证中迫切需要更具韧性的防御措施。
🔬 方法详解
问题定义:本文旨在解决冻结基础模型在合成图像取证中的脆弱性,现有方法在对抗攻击下表现不佳,容易被攻击者利用。
核心思路:提出的SIAA方法通过利用检测器的ViT骨干知识,在特征空间内生成对抗样本,避免了对模型内部结构的深入了解,降低了攻击门槛。
技术框架:SIAA的整体架构包括特征提取、对抗样本生成和攻击效果评估三个主要模块。首先,从目标检测器中提取特征,然后在此特征空间内进行对抗样本的生成,最后评估生成样本对检测器的影响。
关键创新:SIAA的最大创新在于其灰盒攻击策略,仅依赖于检测器的骨干网络知识,显著降低了对抗攻击的复杂性,与传统白盒攻击方法相比,具有更广泛的适用性。
关键设计:在参数设置上,SIAA采用了特定的损失函数来优化对抗样本的生成,同时在网络结构上保持了ViT的特征提取能力,以确保生成样本的有效性。具体的损失函数设计和网络结构细节在实验部分进行了详细描述。
📊 实验亮点
实验结果显示,SIAA在多种灰盒场景下的攻击成功率显著提高,接近白盒攻击的性能,证明了仅依赖骨干网络知识即可有效攻击多种ViT检测器。这一发现强调了对抗攻击在合成图像取证中的重要性。
🎯 应用场景
该研究的潜在应用领域包括合成图像检测、网络安全和数字取证等。通过提高对抗攻击的检测能力,SIAA能够为多媒体内容的真实性验证提供更强有力的支持,未来可能推动相关技术的标准化和应用。
📄 摘要(原文)
As AI-generated synthetic images become increasingly realistic, Vision Transformers (ViTs) have emerged as a cornerstone of modern deepfake detection. However, the prevailing reliance on frozen, pre-trained backbones introduces a subtle yet critical vulnerability. In this work, we present the Surrogate Iterative Adversarial Attack (SIAA), a gray-box attack that exploits knowledge of the detector's ViT backbone alone and operates entirely within the target detector's feature space to craft highly effective adversarial examples. Through our experiments, involving multiple ViT-based detectors and diverse gray-box scenarios, including few-shot learning, complete training misalignment and attack transferability tests, we demonstrate that this vulnerability consistently yields high attack success rates, often approaching white-box performance. By doing so, we reveal that backbone knowledge alone is sufficient to undermine detector reliability, highlighting the urgent need for more resilient defenses in adversarial multimedia forensics.