Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video Representations

📄 arXiv: 2503.22121v2 📥 PDF

作者: Tharun Anand, Siva Sankar Sajeev, Pravin Nair

分类: cs.CV

发布日期: 2025-03-28 (更新: 2025-04-13)

备注: Accepted to CVPR-W 2025


💡 一句话要点

提出基于动作单元引导的视频表征方法,用于检测局部深度伪造篡改。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation)

关键词: 深度伪造检测 局部篡改 动作单元 视频表征 交叉注意力

📋 核心要点

  1. 现有深度伪造检测模型难以捕捉面部局部细微篡改,如眉毛、眼睛或嘴部的微小变化。
  2. 利用面部动作单元引导的时空表示,通过交叉注意力融合预训练任务特征,编码局部变化。
  3. 实验表明,该方法在检测局部篡改的深度伪造视频上,比现有方法准确率提升20%。

📝 摘要(中文)

随着生成模型的快速发展,深度伪造技术正日益缩小真实视频和合成视频之间的差距,引发了严重的隐私和安全问题。除了传统的换脸和重演之外,最近最先进的深度伪造生成方法的一个新兴趋势是局部编辑,例如对特定面部特征的细微操作,如抬眉、改变眼睛形状或修改嘴部表情。这些细粒度的操作对现有的检测模型提出了重大挑战,因为它们难以捕捉到这种局部变化。据我们所知,这项工作提出了第一个明确设计用于推广到深度伪造视频中局部编辑的检测方法,通过利用由面部动作单元引导的时空表示。我们的方法利用基于交叉注意力的融合,将从随机掩码和动作单元检测等预训练任务中学习到的表示融合起来,从而创建一个有效地编码细微局部变化的嵌入。在多种深度伪造生成方法上的全面评估表明,我们的方法仅在传统的FF+数据集上进行训练,但在检测最近生成的具有细粒度局部编辑的深度伪造视频方面,树立了新的基准,与当前最先进的检测方法相比,准确率提高了20%。此外,我们的方法在标准数据集上提供了具有竞争力的性能,突出了其在各种类型的局部和全局伪造方面的鲁棒性和泛化能力。

🔬 方法详解

问题定义:论文旨在解决现有深度伪造检测方法在检测局部细微篡改(例如,改变眉毛、眼睛或嘴巴的形状)时表现不佳的问题。现有方法通常侧重于全局面部特征,难以捕捉这些局部变化,导致检测精度下降。

核心思路:论文的核心思路是利用面部动作单元(Action Units, AUs)作为引导,学习对局部篡改敏感的视频表征。通过关注与特定面部动作相关的区域,模型能够更好地捕捉到细微的局部变化,从而提高检测精度。

技术框架:该方法主要包含以下几个模块:1) 预训练任务:使用随机掩码和动作单元检测作为预训练任务,学习视频的时空特征和面部动作单元的表示。2) 特征提取:从预训练任务中提取的特征。3) 交叉注意力融合:使用交叉注意力机制将不同预训练任务学习到的特征进行融合,生成最终的视频表征。4) 分类器:使用分类器对融合后的视频表征进行分类,判断视频是否为深度伪造。

关键创新:该方法最重要的创新点在于利用动作单元引导的视频表征来检测局部深度伪造篡改。与以往侧重于全局特征的方法不同,该方法能够关注与特定面部动作相关的局部区域,从而更有效地捕捉到细微的篡改痕迹。

关键设计:在预训练阶段,使用了随机掩码和动作单元检测两个任务。随机掩码任务用于学习视频的时空特征,动作单元检测任务用于学习面部动作单元的表示。在特征融合阶段,使用了交叉注意力机制,允许模型自适应地学习不同特征之间的关系。损失函数方面,使用了交叉熵损失函数进行分类。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在检测局部篡改的深度伪造视频上取得了显著的性能提升。在多个深度伪造数据集上进行了评估,结果表明,该方法在检测具有细粒度局部编辑的深度伪造视频方面,比当前最先进的检测方法准确率提高了20%。此外,该方法在标准数据集上也表现出具有竞争力的性能,证明了其鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻媒体机构和安全监控系统,用于检测和识别深度伪造视频,从而防止虚假信息的传播和恶意攻击。此外,该技术还可以用于保护个人隐私,防止未经授权的面部信息篡改和滥用。未来,该技术有望在数字内容安全领域发挥重要作用。

📄 摘要(原文)

With rapid advancements in generative modeling, deepfake techniques are increasingly narrowing the gap between real and synthetic videos, raising serious privacy and security concerns. Beyond traditional face swapping and reenactment, an emerging trend in recent state-of-the-art deepfake generation methods involves localized edits such as subtle manipulations of specific facial features like raising eyebrows, altering eye shapes, or modifying mouth expressions. These fine-grained manipulations pose a significant challenge for existing detection models, which struggle to capture such localized variations. To the best of our knowledge, this work presents the first detection approach explicitly designed to generalize to localized edits in deepfake videos by leveraging spatiotemporal representations guided by facial action units. Our method leverages a cross-attention-based fusion of representations learned from pretext tasks like random masking and action unit detection, to create an embedding that effectively encodes subtle, localized changes. Comprehensive evaluations across multiple deepfake generation methods demonstrate that our approach, despite being trained solely on the traditional FF+ dataset, sets a new benchmark in detecting recent deepfake-generated videos with fine-grained local edits, achieving a $20\%$ improvement in accuracy over current state-of-the-art detection methods. Additionally, our method delivers competitive performance on standard datasets, highlighting its robustness and generalization across diverse types of local and global forgeries.