Multi-modal Deepfake Detection and Localization with FPN-Transformer
作者: Chende Zheng, Ruiqi Suo, Zhoulin Ji, Jingyi Deng, Fangbin Yi, Chenhao Lin, Chao Shen
分类: cs.CV, cs.AI
发布日期: 2025-11-11
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于FPN-Transformer的多模态深度伪造检测与定位框架,提升跨模态泛化能力和时序边界回归精度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)
关键词: 深度伪造检测 多模态融合 特征金字塔网络 Transformer 时序定位 自监督学习 跨模态学习
📋 核心要点
- 现有单模态深度伪造检测方法难以有效利用跨模态信息,且定位精度不足,限制了其在复杂伪造场景中的应用。
- 论文提出基于FPN-Transformer的多模态检测框架,利用预训练模型提取特征,构建多尺度特征金字塔,实现跨模态信息融合。
- 在IJCAI'25 DDL-AV基准测试中,该方法在跨模态深度伪造检测和定位任务上取得了0.7535的良好性能。
📝 摘要(中文)
生成对抗网络和扩散模型的快速发展使得深度伪造内容高度逼真,对视听领域的数字信任构成重大威胁。单模态检测方法在识别合成媒体方面取得进展,但其无法利用跨模态相关性以及精确定位伪造片段的能力限制了其在复杂、细粒度操作中的实用性。为了解决这个问题,我们提出了一种基于特征金字塔-Transformer (FPN-Transformer)的多模态深度伪造检测与定位框架,解决了跨模态泛化和时间边界回归的关键问题。该方法利用预训练的自监督模型(音频使用WavLM,视频使用CLIP)提取分层时间特征。通过具有局部注意力机制的R-TLM块构建多尺度特征金字塔,实现跨上下文时间依赖性的联合分析。双分支预测头同时预测伪造概率并细化被操纵片段的时间偏移,实现帧级定位精度。我们在IJCAI'25 DDL-AV基准测试集的测试集上评估了我们的方法,在具有挑战性的环境中,跨模态深度伪造检测和定位的最终得分为0.7535,表现良好。实验结果证实了我们方法的有效性,并为广义深度伪造检测提供了一种新方法。代码可在https://github.com/Zig-HS/MM-DDL获取。
🔬 方法详解
问题定义:论文旨在解决现有深度伪造检测方法在跨模态信息利用不足和时序定位精度不高的问题。现有的单模态方法无法充分利用音频和视频之间的关联性,导致在复杂伪造场景下的检测效果不佳。同时,现有方法在精确定位伪造片段的时间边界方面存在局限性。
核心思路:论文的核心思路是利用多模态信息融合,通过构建特征金字塔和Transformer结构,实现对音频和视频时序特征的联合分析。通过预训练的自监督模型提取特征,并利用局部注意力机制关注关键的时间依赖关系,从而提高检测的准确性和定位精度。
技术框架:该框架主要包含以下几个模块:1) 特征提取模块:使用预训练的WavLM(音频)和CLIP(视频)模型提取分层时间特征。2) 特征金字塔构建模块:通过R-TLM块构建多尺度特征金字塔,实现跨上下文时间依赖性的联合分析。3) 预测模块:采用双分支预测头,同时预测伪造概率和细化被操纵片段的时间偏移。整体流程是先提取多模态特征,然后进行特征融合和分析,最后进行伪造检测和时序定位。
关键创新:该论文的关键创新在于:1) 提出了基于FPN-Transformer的多模态深度伪造检测框架,能够有效融合音频和视频信息。2) 利用R-TLM块构建多尺度特征金字塔,增强了模型对不同尺度时间依赖关系的建模能力。3) 采用双分支预测头,同时进行伪造概率预测和时序偏移回归,提高了定位精度。
关键设计:R-TLM块的具体结构未知,但强调了局部注意力机制的应用,用于关注关键的时间依赖关系。损失函数的设计可能包含分类损失(伪造/非伪造)和回归损失(时序偏移)。预训练模型WavLM和CLIP的选择是基于其在音频和视频特征提取方面的强大能力。具体的网络结构细节和参数设置在论文中可能有所描述,但摘要中未提及。
📊 实验亮点
该方法在IJCAI'25 DDL-AV基准测试集的测试集上取得了0.7535的最终得分,表明其在跨模态深度伪造检测和定位方面具有良好的性能。该结果验证了所提出的FPN-Transformer框架在融合多模态信息和精确定位伪造片段方面的有效性。具体的提升幅度需要参考基线方法的性能数据,但摘要中未提供。
🎯 应用场景
该研究成果可应用于社交媒体平台、新闻媒体机构等,用于检测和识别深度伪造内容,维护数字信息的真实性和可信度。通过自动检测和定位伪造片段,可以有效防止虚假信息的传播,保护公众利益,并为司法鉴定提供技术支持。未来,该技术可进一步扩展到其他多媒体领域,如图像、文本等,构建更全面的深度伪造检测系统。
📄 摘要(原文)
The rapid advancement of generative adversarial networks (GANs) and diffusion models has enabled the creation of highly realistic deepfake content, posing significant threats to digital trust across audio-visual domains. While unimodal detection methods have shown progress in identifying synthetic media, their inability to leverage cross-modal correlations and precisely localize forged segments limits their practicality against sophisticated, fine-grained manipulations. To address this, we introduce a multi-modal deepfake detection and localization framework based on a Feature Pyramid-Transformer (FPN-Transformer), addressing critical gaps in cross-modal generalization and temporal boundary regression. The proposed approach utilizes pre-trained self-supervised models (WavLM for audio, CLIP for video) to extract hierarchical temporal features. A multi-scale feature pyramid is constructed through R-TLM blocks with localized attention mechanisms, enabling joint analysis of cross-context temporal dependencies. The dual-branch prediction head simultaneously predicts forgery probabilities and refines temporal offsets of manipulated segments, achieving frame-level localization precision. We evaluate our approach on the test set of the IJCAI'25 DDL-AV benchmark, showing a good performance with a final score of 0.7535 for cross-modal deepfake detection and localization in challenging environments. Experimental results confirm the effectiveness of our approach and provide a novel way for generalized deepfake detection. Our code is available at https://github.com/Zig-HS/MM-DDL