DeepfakeBench-MM: A Comprehensive Benchmark for Multimodal Deepfake Detection

📄 arXiv: 2510.22622v1 📥 PDF

作者: Kangran Zhao, Yupeng Chen, Xiaoyu Zhang, Yize Chen, Weinan Guan, Baicheng Chen, Chengzhe Sun, Soumyya Kanti Datta, Qingshan Liu, Siwei Lyu, Baoyuan Wu

分类: cs.CR, cs.CV, cs.MM

发布日期: 2025-10-26

备注: Preprint


💡 一句话要点

构建多模态深度伪造检测基准DeepfakeBench-MM,应对伪造音视频内容带来的社会风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度伪造检测 多模态学习 数据集构建 评估基准 音视频分析

📋 核心要点

  1. 现有深度伪造检测方法缺乏足够和多样化的训练数据,并且缺少标准化的评估基准,限制了更深入的研究。
  2. 本文构建了大规模多模态深度伪造数据集Mega-MMDF,并提出了统一的评估基准DeepfakeBench-MM,以促进相关研究。
  3. 实验结果表明,DeepfakeBench-MM能够有效评估现有方法,并为未来研究提供有价值的分析和指导。

📝 摘要(中文)

针对生成式AI模型滥用导致的伪造数据泛滥,特别是以人为中心的音视频内容伪造所带来的社会风险,本文构建了大规模、多样化、高质量的多模态深度伪造数据集Mega-MMDF。该数据集包含0.1百万真实样本和1.1百万伪造样本,通过组合10种音频伪造方法、12种视觉伪造方法和6种音频驱动的面部重演方法,共计21种伪造流程生成。在此基础上,提出了首个统一的多模态深度伪造检测基准DeepfakeBench-MM,建立了标准化的检测流程,为评估现有方法和探索新方法提供平台。通过全面的评估和深入的分析,揭示了多个角度的关键发现,例如数据增强和堆叠伪造的影响。DeepfakeBench-MM和Mega-MMDF将为推进多模态深度伪造检测提供基础支撑。

🔬 方法详解

问题定义:论文旨在解决多模态深度伪造检测问题,现有方法面临的痛点在于缺乏大规模、多样化的数据集和统一的评估基准,导致模型泛化能力不足,难以应对各种伪造技术。

核心思路:论文的核心思路是构建一个包含多种伪造技术的综合数据集,并在此基础上建立一个标准化的评估基准。通过提供丰富的数据和统一的评估标准,促进多模态深度伪造检测领域的研究。

技术框架:DeepfakeBench-MM的整体框架包含两个主要组成部分:Mega-MMDF数据集和评估基准。Mega-MMDF数据集通过组合多种音频和视觉伪造方法生成,涵盖了各种深度伪造场景。评估基准则定义了标准化的数据处理、模型训练和性能评估流程,方便研究者进行公平的比较。

关键创新:论文的关键创新在于构建了大规模、多样化的Mega-MMDF数据集,并提出了统一的DeepfakeBench-MM评估基准。与现有数据集相比,Mega-MMDF包含了更多的伪造方法和场景,更贴近实际应用。DeepfakeBench-MM则提供了一个标准化的评估平台,方便研究者比较不同方法的性能。

关键设计:Mega-MMDF数据集的设计考虑了音频和视觉模态的多种伪造技术,包括音频克隆、语音转换、面部替换、表情操控等。数据集的构建过程中,作者精心设计了各种伪造流程,并对数据进行了清洗和标注。DeepfakeBench-MM评估基准则定义了标准化的评估指标,例如准确率、精确率、召回率和F1值,并提供了常用的数据增强方法和模型训练技巧。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在DeepfakeBench-MM上对11种多模态深度伪造检测器进行评估,揭示了现有方法在不同伪造类型和场景下的性能差异。实验结果表明,数据增强和堆叠伪造等技术对检测性能有显著影响。例如,某些方法在特定伪造类型上表现良好,但在其他类型上则表现不佳,这表明需要针对不同的伪造技术开发更具针对性的检测方法。

🎯 应用场景

该研究成果可应用于金融安全、社会舆情监控、新闻真实性验证等领域。通过提高深度伪造检测的准确性和鲁棒性,可以有效防范利用伪造音视频进行欺诈、诽谤等恶意行为,维护社会稳定和公共利益。未来,该研究可进一步扩展到更多模态和场景,例如文本、图像等,并与其他安全技术相结合,构建更完善的安全防护体系。

📄 摘要(原文)

The misuse of advanced generative AI models has resulted in the widespread proliferation of falsified data, particularly forged human-centric audiovisual content, which poses substantial societal risks (e.g., financial fraud and social instability). In response to this growing threat, several works have preliminarily explored countermeasures. However, the lack of sufficient and diverse training data, along with the absence of a standardized benchmark, hinder deeper exploration. To address this challenge, we first build Mega-MMDF, a large-scale, diverse, and high-quality dataset for multimodal deepfake detection. Specifically, we employ 21 forgery pipelines through the combination of 10 audio forgery methods, 12 visual forgery methods, and 6 audio-driven face reenactment methods. Mega-MMDF currently contains 0.1 million real samples and 1.1 million forged samples, making it one of the largest and most diverse multimodal deepfake datasets, with plans for continuous expansion. Building on it, we present DeepfakeBench-MM, the first unified benchmark for multimodal deepfake detection. It establishes standardized protocols across the entire detection pipeline and serves as a versatile platform for evaluating existing methods as well as exploring novel approaches. DeepfakeBench-MM currently supports 5 datasets and 11 multimodal deepfake detectors. Furthermore, our comprehensive evaluations and in-depth analyses uncover several key findings from multiple perspectives (e.g., augmentation, stacked forgery). We believe that DeepfakeBench-MM, together with our large-scale Mega-MMDF, will serve as foundational infrastructures for advancing multimodal deepfake detection.