SCA: Improve Semantic Consistent in Unrestricted Adversarial Attacks via DDPM Inversion
作者: Zihao Pan, Lifeng Chen, Weibin Wu, Yuhang Cao, Zibin Zheng
分类: cs.CV, cs.AI
发布日期: 2024-10-03 (更新: 2025-05-12)
🔗 代码/项目: GITHUB
💡 一句话要点
提出SCA框架,通过DDPM反演和MLLM引导,提升非限制对抗攻击的语义一致性与效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗攻击 语义一致性 扩散模型 DDPM反演 多模态大语言模型 DPM Solver++ 非限制攻击 对抗样本生成
📋 核心要点
- 现有非限制对抗攻击在修改图像语义时,常导致显著失真,且基于扩散模型的攻击效率较低。
- SCA框架利用DDPM反演提取可编辑噪声图,并用MLLM提供语义指导,确保攻击过程的语义一致性。
- 实验表明,SCA能高效生成语义变化小的对抗样本,速度比现有方法平均快12倍,并首次提出语义一致对抗样本(SCAE)。
📝 摘要(中文)
深度神经网络系统容易受到对抗攻击。非限制对抗攻击通常会操纵图像的语义内容(例如颜色或纹理)来创建有效且逼真的对抗样本。最近的研究利用扩散反演过程将图像映射到潜在空间,通过引入扰动来操纵高层语义。然而,它们通常会导致去噪输出中出现显著的语义失真,并且效率低下。本文提出了一种名为语义一致非限制对抗攻击(SCA)的新框架,该框架采用反演方法来提取易于编辑的噪声图,并利用多模态大型语言模型(MLLM)在整个过程中提供语义指导。在MLLM提供的丰富语义信息的条件下,我们使用一系列易于编辑的噪声图执行每一步的DDPM去噪过程,并利用DPM Solver++来加速该过程,从而实现具有语义一致性的高效采样。与现有方法相比,我们的框架能够高效地生成表现出最小可辨别语义变化的对抗样本。因此,我们首次引入了语义一致对抗样本(SCAE)。大量的实验和可视化结果表明了SCA的高效率,尤其是在速度上平均比最先进的攻击快12倍。代码可在https://github.com/Pan-Zihao/SCA找到。
🔬 方法详解
问题定义:论文旨在解决非限制对抗攻击中,对抗样本语义一致性差和生成效率低的问题。现有方法在利用扩散模型进行对抗攻击时,容易引入较大的语义扰动,导致生成的对抗样本与原始图像在语义上差异较大,同时计算成本高昂,生成速度慢。
核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)提供语义指导,结合可编辑的噪声图和高效的DDPM采样方法,在对抗攻击过程中保持图像的语义一致性,并提高生成效率。通过MLLM对图像内容进行理解,并指导噪声的添加和去除,避免了语义上的剧烈变化。
技术框架:SCA框架主要包含以下几个阶段:1) 图像反演:使用反演方法将原始图像映射到DDPM的潜在空间,得到易于编辑的噪声图。2) 语义引导:利用MLLM对图像进行语义分析,提取关键语义信息,并将其作为指导信号。3) 对抗扰动:根据MLLM的语义指导,在噪声图上添加对抗扰动,控制图像的语义变化。4) DDPM去噪:使用DPM Solver++加速DDPM的去噪过程,生成对抗样本。
关键创新:论文的关键创新在于:1) 提出了一种基于MLLM语义引导的对抗攻击方法,有效提升了对抗样本的语义一致性。2) 引入了可编辑的噪声图,使得对抗扰动的添加更加精细和可控。3) 利用DPM Solver++加速DDPM的采样过程,显著提高了对抗样本的生成效率。
关键设计:在图像反演阶段,论文选择合适的反演方法以确保噪声图的可编辑性。MLLM的选择需要考虑其语义理解能力和与DDPM的兼容性。对抗扰动的添加方式需要根据MLLM的语义指导进行调整,以避免引入不必要的语义变化。DPM Solver++的具体参数设置需要根据实验结果进行优化,以在保证生成质量的前提下,尽可能提高采样速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SCA框架在保持语义一致性的同时,显著提高了对抗样本的生成效率。与现有最先进的攻击方法相比,SCA在速度上平均快12倍。同时,SCA生成的对抗样本在视觉上与原始图像更加相似,语义变化更小,更难以被人类察觉,从而实现了更有效的对抗攻击。
🎯 应用场景
该研究成果可应用于提高深度学习模型的安全性,评估模型在对抗环境下的鲁棒性。通过生成语义一致的对抗样本,可以更有效地训练模型,使其对恶意攻击具有更强的抵抗能力。此外,该技术还可用于图像编辑、风格迁移等领域,实现对图像内容进行细粒度的控制。
📄 摘要(原文)
Systems based on deep neural networks are vulnerable to adversarial attacks. Unrestricted adversarial attacks typically manipulate the semantic content of an image (e.g., color or texture) to create adversarial examples that are both effective and photorealistic. Recent works have utilized the diffusion inversion process to map images into a latent space, where high-level semantics are manipulated by introducing perturbations. However, they often result in substantial semantic distortions in the denoised output and suffer from low efficiency. In this study, we propose a novel framework called Semantic-Consistent Unrestricted Adversarial Attacks (SCA), which employs an inversion method to extract edit-friendly noise maps and utilizes a Multimodal Large Language Model (MLLM) to provide semantic guidance throughout the process. Under the condition of rich semantic information provided by MLLM, we perform the DDPM denoising process of each step using a series of edit-friendly noise maps and leverage DPM Solver++ to accelerate this process, enabling efficient sampling with semantic consistency. Compared to existing methods, our framework enables the efficient generation of adversarial examples that exhibit minimal discernible semantic changes. Consequently, we for the first time introduce Semantic-Consistent Adversarial Examples (SCAE). Extensive experiments and visualizations have demonstrated the high efficiency of SCA, particularly in being on average 12 times faster than the state-of-the-art attacks. Our code can be found at https://github.com/Pan-Zihao/SCA.