WMamba: Wavelet-based Mamba for Face Forgery Detection

📄 arXiv: 2501.09617v2 📥 PDF

作者: Siran Peng, Tianshuo Zhang, Li Gao, Xiangyu Zhu, Haoyuan Zhang, Kai Pang, Zhen Lei

分类: cs.CV

发布日期: 2025-01-16 (更新: 2025-10-21)

备注: Accepted by ACM MM 2025


💡 一句话要点

WMamba:基于小波变换的Mamba架构用于人脸伪造检测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 人脸伪造检测 小波变换 Mamba架构 动态轮廓卷积 深度学习

📋 核心要点

  1. 现有基于小波变换的人脸伪造检测方法未能充分利用小波数据的特性,导致特征提取效果不佳,性能提升有限。
  2. WMamba通过动态轮廓卷积(DCConv)自适应建模细长面部轮廓,并利用Mamba架构捕获长程空间关系,从而有效提取伪造痕迹。
  3. 实验结果表明,WMamba在人脸伪造检测任务上取得了最先进的性能,验证了其有效性。

📝 摘要(中文)

深度伪造生成技术的快速发展需要开发鲁棒的人脸伪造检测算法。最近的研究表明,小波分析可以增强伪造检测器的泛化能力。小波能够有效地捕捉关键的面部轮廓,这些轮廓通常是细长的、精细的,并且是全局分布的,可能隐藏着在空间域中难以察觉的细微伪造痕迹。然而,目前基于小波的方法未能充分利用小波数据的独特属性,导致次优的特征提取和有限的性能提升。为了解决这个挑战,我们引入了WMamba,一种基于Mamba架构的新型小波特征提取器。WMamba通过两个关键创新最大化了小波信息的效用。首先,我们提出了动态轮廓卷积(DCConv),它采用专门设计的可变形卷积核来自适应地建模细长的面部轮廓。其次,通过利用Mamba架构,我们的方法以线性复杂度捕获长程空间关系。这种效率允许从小的图像块中提取精细的、全局分布的伪造痕迹。大量的实验表明,WMamba实现了最先进(SOTA)的性能,突出了其在人脸伪造检测中的有效性。

🔬 方法详解

问题定义:论文旨在解决人脸伪造检测问题,现有基于小波变换的方法虽然能捕捉到一些伪造痕迹,但未能充分利用小波数据的特性,导致特征提取能力不足,泛化性能受限。这些方法难以有效地建模细长、精细且全局分布的面部轮廓,从而无法检测到细微的伪造痕迹。

核心思路:论文的核心思路是设计一种能够充分利用小波信息,并有效建模面部轮廓的特征提取器。通过引入动态轮廓卷积(DCConv)自适应地建模细长面部轮廓,并利用Mamba架构捕获长程空间关系,从而更有效地提取伪造痕迹。这种设计旨在克服现有方法在特征提取方面的局限性,提高检测精度和泛化能力。

技术框架:WMamba的整体框架包括小波变换、动态轮廓卷积(DCConv)和Mamba架构。首先,对输入图像进行小波变换,提取不同频率和方向的特征。然后,利用DCConv自适应地建模细长的面部轮廓。最后,通过Mamba架构捕获长程空间关系,提取全局伪造特征。整个框架旨在充分利用小波信息,并有效地建模面部轮廓,从而提高人脸伪造检测的性能。

关键创新:论文的关键创新在于提出了动态轮廓卷积(DCConv)和将Mamba架构应用于小波特征提取。DCConv通过可变形卷积核自适应地建模细长的面部轮廓,与传统的固定卷积核相比,能够更好地捕捉面部结构的细节信息。Mamba架构能够以线性复杂度捕获长程空间关系,这使得WMamba能够有效地提取全局分布的伪造痕迹。

关键设计:DCConv的关键设计在于可变形卷积核,其形状和位置可以根据输入数据自适应地调整,从而更好地建模面部轮廓。Mamba架构的关键设计在于其选择机制,能够根据输入数据动态地选择重要的特征,从而提高特征提取的效率。此外,论文还可能涉及到一些超参数的调整,例如小波变换的类型、DCConv的卷积核大小、Mamba架构的层数等。损失函数通常采用二元交叉熵损失函数,用于区分真假人脸。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WMamba在人脸伪造检测任务上取得了最先进的性能(SOTA),显著优于现有的基于小波变换的方法和其他深度学习模型。具体的性能数据和对比基线需要在论文中查找,但摘要强调了其在检测精度和泛化能力方面的提升。实验结果表明,WMamba能够有效地提取细微的伪造痕迹,并具有较强的鲁棒性。

🎯 应用场景

该研究成果可应用于网络安全、身份验证、新闻媒体等领域,用于检测和防范深度伪造视频和图像的滥用。通过提高人脸伪造检测的准确性和鲁棒性,可以有效减少虚假信息的传播,维护社会诚信,并为未来的安全应用提供技术保障。该技术还有潜力扩展到其他类型的图像和视频伪造检测。

📄 摘要(原文)

The rapid evolution of deepfake generation technologies necessitates the development of robust face forgery detection algorithms. Recent studies have demonstrated that wavelet analysis can enhance the generalization abilities of forgery detectors. Wavelets effectively capture key facial contours, often slender, fine-grained, and globally distributed, that may conceal subtle forgery artifacts imperceptible in the spatial domain. However, current wavelet-based approaches fail to fully exploit the distinctive properties of wavelet data, resulting in sub-optimal feature extraction and limited performance gains. To address this challenge, we introduce WMamba, a novel wavelet-based feature extractor built upon the Mamba architecture. WMamba maximizes the utility of wavelet information through two key innovations. First, we propose Dynamic Contour Convolution (DCConv), which employs specially crafted deformable kernels to adaptively model slender facial contours. Second, by leveraging the Mamba architecture, our method captures long-range spatial relationships with linear complexity. This efficiency allows for the extraction of fine-grained, globally distributed forgery artifacts from small image patches. Extensive experiments show that WMamba achieves state-of-the-art (SOTA) performance, highlighting its effectiveness in face forgery detection.