SyncBreaker:Stage-Aware Multimodal Adversarial Attacks on Audio-Driven Talking Head Generation
作者: Wenli Zhang, Xianglong Shi, Sirui Zhao, Xinqi Chen, Guo Cheng, Yifan Xu, Tong Xu, Yong Liao
分类: cs.CV
发布日期: 2026-04-09
🔗 代码/项目: GITHUB
💡 一句话要点
提出SyncBreaker,一种针对语音驱动人像生成的多模态对抗攻击框架。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗攻击 多模态学习 语音驱动人像生成 深度伪造防御 扩散模型
📋 核心要点
- 现有语音驱动人像生成易被滥用,单模态防御效果有限,无法有效抑制语音驱动的面部动态。
- SyncBreaker通过联合扰动图像和音频,利用多区间采样和交叉注意力欺骗,实现更强的防御。
- 实验表明,SyncBreaker在降低唇部同步和面部动态方面优于单模态基线,且具有鲁棒性。
📝 摘要(中文)
基于扩散模型的语音驱动人像生成技术虽然能够生成逼真的人像动画,但也带来了被滥用的风险,例如欺诈和虚假信息。现有的保护方法大多局限于单一模态,仅图像或仅音频的攻击都无法有效抑制语音驱动的面部动态。为了解决这个问题,我们提出了SyncBreaker,一个阶段感知的多模态保护框架,它在模态特定的感知约束下,联合扰动人像和音频输入。我们的主要贡献有两个方面。首先,对于图像流,我们引入了具有多区间采样(MIS)的无效监督,通过聚合来自多个去噪区间的指导,引导生成朝着静态参考人像的方向发展。其次,对于音频流,我们提出了交叉注意力欺骗(CAF),它抑制了区间特定的音频条件交叉注意力响应。两个流独立优化,并在推理时组合,以实现灵活的部署。我们在白盒主动保护设置中评估了SyncBreaker。大量的实验表明,与强大的单模态基线相比,SyncBreaker能更有效地降低唇部同步和面部动态,同时保持输入感知质量,并在净化下保持鲁棒性。
🔬 方法详解
问题定义:论文旨在解决语音驱动人像生成模型容易受到恶意攻击的问题,特别是现有防御方法在对抗多模态攻击时效果不佳。现有的图像或音频单模态攻击无法有效抑制语音驱动的面部动态,攻击效果不明显,容易被检测和防御。
核心思路:论文的核心思路是设计一种多模态对抗攻击框架,同时扰动图像和音频输入,以破坏语音和人像之间的同步性,从而降低生成人像的逼真度。通过在扩散模型的不同阶段施加扰动,并利用交叉注意力机制,使得攻击更加有效和难以防御。
技术框架:SyncBreaker框架包含两个主要分支:图像流和音频流。图像流使用多区间采样(MIS)的无效监督,引导生成结果向静态参考人像靠拢。音频流使用交叉注意力欺骗(CAF),抑制音频对图像生成的影响。两个分支独立优化,最终在推理阶段结合,实现对生成结果的干扰。整体流程包括:输入人像和音频,分别进行图像和音频扰动,通过扩散模型生成人像,评估生成结果的同步性和逼真度。
关键创新:论文的关键创新在于提出了阶段感知的多模态攻击方法。具体来说,图像流的MIS和音频流的CAF都是针对扩散模型的特定阶段进行优化的,从而能够更有效地干扰生成过程。此外,联合扰动图像和音频,使得攻击更加隐蔽和难以防御。
关键设计:图像流的MIS通过在扩散模型的多个去噪区间采样,计算损失函数,引导生成结果向静态参考人像靠拢。音频流的CAF通过修改音频特征,抑制音频对图像生成的影响,具体来说,通过最小化交叉注意力图的响应来实现。损失函数的设计考虑了感知质量和攻击效果,以保证攻击的隐蔽性和有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SyncBreaker在降低唇部同步和面部动态方面显著优于单模态基线。与仅图像或仅音频的攻击相比,SyncBreaker能够更有效地破坏语音和人像之间的同步性,同时保持较高的输入感知质量。此外,SyncBreaker在经过净化处理后仍然具有较强的鲁棒性,表明其攻击具有一定的隐蔽性。
🎯 应用场景
该研究成果可应用于对抗深度伪造、保护个人隐私和防止恶意信息传播等领域。通过主动防御语音驱动人像生成模型,可以降低其被用于欺诈、诽谤等非法活动的可能性。此外,该技术还可以用于评估和提高语音驱动人像生成模型的安全性。
📄 摘要(原文)
Diffusion-based audio-driven talking-head generation enables realistic portrait animation, but also introduces risks of misuse, such as fraud and misinformation. Existing protection methods are largely limited to a single modality, and neither image-only nor audio-only attacks can effectively suppress speech-driven facial dynamics. To address this gap, we propose SyncBreaker, a stage-aware multimodal protection framework that jointly perturbs portrait and audio inputs under modality-specific perceptual constraints. Our key contributions are twofold. First, for the image stream, we introduce nullifying supervision with Multi-Interval Sampling (MIS) across diffusion stages to steer the generation toward the static reference portrait by aggregating guidance from multiple denoising intervals. Second, for the audio stream, we propose Cross-Attention Fooling (CAF), which suppresses interval-specific audio-conditioned cross-attention responses. Both streams are optimized independently and combined at inference time to enable flexible deployment. We evaluate SyncBreaker in a white-box proactive protection setting. Extensive experiments demonstrate that SyncBreaker more effectively degrades lip synchronization and facial dynamics than strong single-modality baselines, while preserving input perceptual quality and remaining robust under purification. Code: https://github.com/kitty384/SyncBreaker.