Architecture-Agnostic Feature Synergy for Universal Defense Against Heterogeneous Generative Threats
作者: Bingxue Zhang, Yang Gao, Feida Zhu, Yanyan Shen, Yang Shi
分类: cs.CR, cs.AI
发布日期: 2026-03-16
备注: 9 pages, 10 figures
💡 一句话要点
提出架构无关的特征协同框架ATFS,实现对异构生成威胁的通用防御
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 对抗防御 生成对抗网络 扩散模型 特征对齐 异构模型 通用防御 内容安全 架构无关
📋 核心要点
- 现有防御方法针对特定生成模型架构,无法有效应对多种生成模型混合攻击的挑战。
- ATFS框架通过将多模型防御转化为特征空间对齐问题,实现跨架构的梯度协同,提升防御效果。
- 实验表明,ATFS在异构场景下达到SOTA性能,收敛速度快,且对未见过的架构具有良好的泛化能力。
📝 摘要(中文)
生成式AI的部署对内容安全和隐私提出了前所未有的挑战。然而,现有的防御机制通常针对特定架构(如扩散模型或GAN)定制,形成了脆弱的“防御孤岛”,无法抵御异构生成威胁。本文指出,朴素像素空间集成策略存在根本的优化障碍:由于目标函数不同,来自异构生成器的像素级梯度在统计上是正交的,导致破坏性干扰。为了克服这一点,我们观察到,尽管底层机制不同,但生成内容的高级特征表示在不同架构之间表现出一致性。基于此,我们提出了架构无关的目标特征协同(ATFS)框架。通过引入目标引导图像,ATFS将多模型防御重新定义为统一的特征空间对齐任务,从而实现内在的梯度对齐,而无需复杂的校正。大量实验表明,ATFS在异构场景(如扩散模型+GAN)中实现了SOTA的保护效果。它收敛迅速,在40次迭代内达到90%以上的性能,并且即使在严格的扰动预算下也能保持强大的攻击效力。该框架通过切换特征提取器,可以无缝扩展到未见过的架构(如VQ-VAE),并表现出对JPEG压缩和缩放的强大抵抗力。ATFS具有计算效率和轻量级的特点,为打破防御孤岛并实现通用生成安全提供了一条可行的途径。代码和模型已开源,以保证可重复性。
🔬 方法详解
问题定义:现有防御方法通常针对特定生成模型(如GAN或扩散模型)设计,无法有效防御来自多种不同架构生成模型的混合攻击。这种“防御孤岛”现象使得系统容易受到攻击,因为攻击者可以利用未被防御模型覆盖的漏洞。朴素的像素空间集成防御策略由于不同生成模型的目标函数差异,导致梯度方向不一致,产生破坏性干扰,无法有效提升防御效果。
核心思路:论文的核心思路是利用不同生成模型生成内容在高层特征空间中的一致性。尽管底层生成机制不同,但它们生成图像的高级语义特征往往是相似的。因此,可以通过将多模型防御问题转化为特征空间对齐问题来解决梯度冲突的问题。具体来说,通过引入一个目标引导图像,迫使不同生成模型的输出在特征空间中与该目标图像对齐,从而实现梯度的协同。
技术框架:ATFS框架包含以下主要步骤:1) 生成对抗样本:使用不同的生成模型生成对抗样本。2) 特征提取:使用预训练的特征提取器(如ImageNet预训练的ResNet)提取对抗样本和目标引导图像的特征。3) 特征对齐:计算对抗样本特征与目标引导图像特征之间的距离(如L2距离),并将其作为损失函数。4) 梯度更新:利用计算得到的损失函数,更新对抗样本的像素值,使其特征逐渐与目标引导图像的特征对齐。通过迭代上述步骤,最终生成能够欺骗目标模型的对抗样本。
关键创新:ATFS的关键创新在于将多模型防御问题转化为特征空间对齐问题。与传统的像素空间集成方法相比,ATFS避免了梯度冲突的问题,实现了更好的防御效果。此外,ATFS框架具有架构无关性,可以通过更换特征提取器来适应不同的生成模型,具有良好的泛化能力。
关键设计:ATFS的关键设计包括:1) 目标引导图像的选择:目标引导图像的选择会影响防御效果,可以选择与原始图像相似的图像,也可以选择具有特定语义信息的图像。2) 特征提取器的选择:特征提取器的选择会影响特征空间的表示能力,可以选择在ImageNet等大型数据集上预训练的模型。3) 损失函数的选择:损失函数用于衡量对抗样本特征与目标引导图像特征之间的距离,可以选择L2距离、余弦相似度等。4) 迭代次数和扰动预算:迭代次数和扰动预算会影响对抗样本的生成质量和攻击成功率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ATFS在异构场景下实现了SOTA的防御性能,例如在Diffusion模型和GAN的混合攻击下,能够有效降低攻击成功率。ATFS收敛速度快,在40次迭代内即可达到90%以上的性能。此外,ATFS对未见过的架构(如VQ-VAE)具有良好的泛化能力,并且对JPEG压缩和缩放等常见图像处理操作具有鲁棒性。
🎯 应用场景
ATFS框架可应用于各种需要防御生成式AI攻击的场景,例如内容安全检测、人脸识别系统保护、隐私保护等。该研究有助于提升生成式AI系统的安全性,降低恶意攻击的风险,促进生成式AI技术的健康发展。未来,该方法可以扩展到更多模态的数据,例如音频、视频等,实现更全面的防御。
📄 摘要(原文)
Generative AI deployment poses unprecedented challenges to content safety and privacy. However, existing defense mechanisms are often tailored to specific architectures (e.g., Diffusion Models or GANs), creating fragile "defense silos" that fail against heterogeneous generative threats. This paper identifies a fundamental optimization barrier in naive pixel-space ensemble strategies: due to divergent objective functions, pixel-level gradients from heterogeneous generators become statistically orthogonal, causing destructive interference. To overcome this, we observe that despite disparate low-level mechanisms, high-level feature representations of generated content exhibit alignment across architectures. Based on this, we propose the Architecture-Agnostic Targeted Feature Synergy (ATFS) framework. By introducing a target guidance image, ATFS reformulates multi-model defense as a unified feature space alignment task, enabling intrinsic gradient alignment without complex rectification. Extensive experiments show ATFS achieves SOTA protection in heterogeneous scenarios (e.g., Diffusion+GAN). It converges rapidly, reaching over 90% performance within 40 iterations, and maintains strong attack potency even under tight perturbation budgets. The framework seamlessly extends to unseen architectures (e.g., VQ-VAE) by switching the feature extractor, and demonstrates robust resistance to JPEG compression and scaling. Being computationally efficient and lightweight, ATFS offers a viable pathway to dismantle defense silos and enable universal generative security. Code and models are open-sourced for reproducibility.