ReToMe-VA: Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack

作者: Ziyi Gao, Kai Chen, Zhipeng Wei, Tingshu Mou, Jingjing Chen, Zhiyu Tan, Hao Li, Yu-Gang Jiang

分类: cs.CV

发布日期: 2024-08-10

💡 一句话要点

提出ReToMe-VA，用于视频扩散模型对抗攻击，提升迁移性和不可感知性。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 视频对抗攻击 扩散模型 对抗迁移性 递归令牌合并 时间步对抗潜在优化

📋 核心要点

现有基于扩散模型的对抗攻击主要集中在图像领域，在视频领域的探索较少，且迁移性有待提升。
ReToMe-VA通过时间步对抗潜在优化（TALO）和递归令牌合并（ReToMe）机制，提升对抗样本在空间和时间上的不可感知性。
实验结果表明，ReToMe-VA在对抗迁移性方面显著优于现有技术，平均提升超过14.16%。

📝 摘要（中文）

本文提出了一种名为递归令牌合并的视频扩散对抗攻击（ReToMe-VA）框架，旨在生成具有更高迁移性的、不可感知的对抗视频片段。为了实现空间上的不可感知性，ReToMe-VA采用了一种时间步对抗潜在优化（TALO）策略，该策略在扩散模型的潜在空间中，于每个去噪步骤迭代优化扰动，从而生成更强大的对抗帧，并降低梯度计算中的内存消耗。为了实现时间上的不可感知性，ReToMe-VA引入了一种递归令牌合并（ReToMe）机制，通过在自注意力模块中匹配和合并视频帧之间的令牌，从而产生时间上一致的对抗视频。ReToMe同时促进了帧间交互，诱导更多样化和鲁棒的梯度，从而带来更好的对抗迁移性。大量实验表明了ReToMe-VA的有效性，尤其是在对抗迁移性方面超过了最先进的攻击方法，平均超过14.16%。

🔬 方法详解

问题定义：论文旨在解决视频领域中，基于扩散模型的对抗攻击迁移性不足的问题。现有方法难以生成在时间和空间上都具有不可感知性的对抗视频，并且在不同模型之间的迁移能力有限。

核心思路：论文的核心思路是通过在扩散模型的潜在空间中进行时间步对抗潜在优化（TALO），以实现空间上的不可感知性，并通过递归令牌合并（ReToMe）机制，在自注意力模块中匹配和合并视频帧之间的令牌，从而实现时间上的不可感知性，并提升对抗样本的迁移能力。

技术框架：ReToMe-VA框架主要包含两个核心模块：时间步对抗潜在优化（TALO）和递归令牌合并（ReToMe）。TALO模块在扩散模型的每个去噪步骤中优化潜在空间的扰动，生成对抗帧。ReToMe模块通过匹配和合并视频帧之间的令牌，确保时间上的一致性，并促进帧间交互。整体流程是先通过TALO生成对抗帧，然后通过ReToMe进行时间一致性处理，最终生成对抗视频。

关键创新：论文的关键创新在于提出了递归令牌合并（ReToMe）机制，这是首次将令牌合并的思想应用于视频对抗攻击领域，通过在自注意力模块中进行令牌匹配和合并，实现了时间上的一致性，并促进了帧间交互，从而提升了对抗样本的迁移能力。

关键设计：TALO模块的关键设计在于在扩散模型的潜在空间中进行迭代优化，并降低梯度计算的内存消耗。ReToMe模块的关键设计在于如何有效地匹配和合并视频帧之间的令牌，具体实现细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ReToMe-VA在对抗迁移性方面显著优于现有技术，平均提升超过14.16%。具体而言，ReToMe-VA在多个视频识别模型上进行了测试，并与最先进的对抗攻击方法进行了比较，结果表明ReToMe-VA能够生成更具迁移性的对抗视频，有效攻击目标模型。

🎯 应用场景

ReToMe-VA的研究成果可应用于评估和提升视频识别系统的鲁棒性，防御恶意对抗攻击。此外，该方法可以用于生成更逼真的对抗样本，用于安全测试和模型安全性的研究，促进视频理解和安全领域的发展。

📄 摘要（原文）

Recent diffusion-based unrestricted attacks generate imperceptible adversarial examples with high transferability compared to previous unrestricted attacks and restricted attacks. However, existing works on diffusion-based unrestricted attacks are mostly focused on images yet are seldom explored in videos. In this paper, we propose the Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack (ReToMe-VA), which is the first framework to generate imperceptible adversarial video clips with higher transferability. Specifically, to achieve spatial imperceptibility, ReToMe-VA adopts a Timestep-wise Adversarial Latent Optimization (TALO) strategy that optimizes perturbations in diffusion models' latent space at each denoising step. TALO offers iterative and accurate updates to generate more powerful adversarial frames. TALO can further reduce memory consumption in gradient computation. Moreover, to achieve temporal imperceptibility, ReToMe-VA introduces a Recursive Token Merging (ReToMe) mechanism by matching and merging tokens across video frames in the self-attention module, resulting in temporally consistent adversarial videos. ReToMe concurrently facilitates inter-frame interactions into the attack process, inducing more diverse and robust gradients, thus leading to better adversarial transferability. Extensive experiments demonstrate the efficacy of ReToMe-VA, particularly in surpassing state-of-the-art attacks in adversarial transferability by more than 14.16% on average.

ReToMe-VA: Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理