BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation
作者: Ruotong Wang, Mingli Zhu, Jiarong Ou, Rui Chen, Xin Tao, Pengfei Wan, Baoyuan Wu
分类: cs.CV, cs.AI
发布日期: 2025-04-23 (更新: 2025-07-25)
备注: Accepted by ICCV 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出BadVideo,针对文本生成视频模型的隐蔽后门攻击框架
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 文本生成视频 后门攻击 对抗性攻击 时空组合 动态元素变换
📋 核心要点
- 现有文本生成视频模型存在对抗性漏洞,容易受到恶意攻击,但相关研究较少。
- BadVideo框架利用视频中冗余信息,通过时空组合和动态元素变换嵌入恶意内容,实现隐蔽攻击。
- 实验表明,BadVideo攻击成功率高,同时保持了原始语义和在干净数据上的良好性能。
📝 摘要(中文)
文本生成视频(T2V)模型发展迅速,并在娱乐、教育和营销等领域得到广泛应用。然而,这些模型的对抗性漏洞却很少被探索。我们观察到,在T2V生成任务中,生成的视频通常包含大量文本提示中未明确指定的冗余信息,例如环境元素、次要对象和附加细节,这为恶意攻击者嵌入隐藏的有害内容提供了机会。利用这种固有的冗余,我们提出了BadVideo,这是第一个专门为T2V生成设计的后门攻击框架。我们的攻击侧重于通过两个关键策略设计目标对抗性输出:(1)时空组合,它结合了不同的时空特征来编码恶意信息;(2)动态元素变换,它在冗余元素中引入随时间变化的变换来传递恶意信息。基于这些策略,攻击者的恶意目标与用户的文本指令无缝集成,提供了高度的隐蔽性。此外,通过利用视频的时间维度,我们的攻击成功地规避了主要分析单个帧内空间信息的传统内容审核系统。大量实验表明,BadVideo在保持原始语义和保持清洁输入上的出色性能的同时,实现了高攻击成功率。总的来说,我们的工作揭示了T2V模型的对抗性漏洞,引起了人们对潜在风险和滥用的关注。
🔬 方法详解
问题定义:论文旨在解决文本生成视频(T2V)模型中存在的后门攻击问题。现有的T2V模型容易受到对抗性攻击,攻击者可以利用模型生成包含恶意内容的视频,而现有的内容审核系统难以检测到这些攻击。现有的攻击方法主要集中在图像领域,无法直接应用于视频领域,并且容易被检测到。
核心思路:论文的核心思路是利用T2V模型生成视频时存在的冗余信息,例如背景、次要物体等,将恶意信息隐藏在这些冗余信息中。通过巧妙地设计时空特征和动态元素变换,将恶意信息嵌入到视频中,使得攻击具有高度的隐蔽性,并且能够绕过现有的内容审核系统。
技术框架:BadVideo框架主要包含两个关键策略:时空组合和动态元素变换。时空组合是指将不同的时空特征组合起来,编码恶意信息。例如,可以将某个物体的颜色和运动轨迹结合起来,表示一个特定的恶意指令。动态元素变换是指在视频的冗余元素中引入随时间变化的变换,来传递恶意信息。例如,可以改变背景的颜色或亮度,或者改变次要物体的形状或大小,来表示不同的恶意指令。这两个策略相互配合,可以实现高度隐蔽的后门攻击。
关键创新:BadVideo框架的关键创新在于其针对T2V模型的特性,提出了时空组合和动态元素变换两种攻击策略。这两种策略能够有效地利用视频中的冗余信息,将恶意信息隐藏在视频中,使得攻击具有高度的隐蔽性。此外,BadVideo框架还能够绕过现有的内容审核系统,因为这些系统主要分析单个帧内的空间信息,而忽略了视频的时间维度。
关键设计:在时空组合方面,论文设计了多种不同的时空特征组合方式,例如颜色、运动轨迹、形状等。在动态元素变换方面,论文设计了多种不同的变换方式,例如颜色变换、亮度变换、形状变换等。论文还设计了一个损失函数,用于优化攻击效果,使得攻击能够成功地将恶意信息嵌入到视频中,并且保持视频的原始语义。
🖼️ 关键图片
📊 实验亮点
BadVideo在多个文本生成视频模型上进行了实验,包括ModelScope和Text2Video-Zero。实验结果表明,BadVideo能够以高成功率(接近100%)触发后门,同时保持视频的视觉质量和与文本描述的一致性。与现有的图像后门攻击方法相比,BadVideo在视频领域的攻击效果更佳,且更难被检测。
🎯 应用场景
该研究揭示了文本生成视频模型的安全风险,可用于提升内容审核系统的鲁棒性,防范恶意视频的传播。研究成果有助于开发更安全的文本生成视频模型,减少潜在的社会危害,例如虚假信息传播、恶意内容生成等。未来可应用于开发更强大的对抗训练方法,提高模型的防御能力。
📄 摘要(原文)
Text-to-video (T2V) generative models have rapidly advanced and found widespread applications across fields like entertainment, education, and marketing. However, the adversarial vulnerabilities of these models remain rarely explored. We observe that in T2V generation tasks, the generated videos often contain substantial redundant information not explicitly specified in the text prompts, such as environmental elements, secondary objects, and additional details, providing opportunities for malicious attackers to embed hidden harmful content. Exploiting this inherent redundancy, we introduce BadVideo, the first backdoor attack framework tailored for T2V generation. Our attack focuses on designing target adversarial outputs through two key strategies: (1) Spatio-Temporal Composition, which combines different spatiotemporal features to encode malicious information; (2) Dynamic Element Transformation, which introduces transformations in redundant elements over time to convey malicious information. Based on these strategies, the attacker's malicious target seamlessly integrates with the user's textual instructions, providing high stealthiness. Moreover, by exploiting the temporal dimension of videos, our attack successfully evades traditional content moderation systems that primarily analyze spatial information within individual frames. Extensive experiments demonstrate that BadVideo achieves high attack success rates while preserving original semantics and maintaining excellent performance on clean inputs. Overall, our work reveals the adversarial vulnerability of T2V models, calling attention to potential risks and misuse. Our project page is at https://wrt2000.github.io/BadVideo2025/.