Attribution-Guided Multimodal Deepfake Detection via Cross-Modal Forensic Fingerprints
作者: Wasim Ahmad, Wei Zhang, Xuerui Mao
分类: cs.CV
发布日期: 2026-04-29
💡 一句话要点
提出基于归因引导的多模态Deepfake检测框架,通过跨模态指纹提升检测精度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Deepfake检测 多模态融合 归因引导学习 跨模态一致性 取证指纹 生成器归因
📋 核心要点
- 现有Deepfake检测方法易受数据集伪影影响,缺乏对生成器特定信息的有效利用,泛化能力不足。
- 提出AMDD框架,通过联合学习检测和归因,利用跨模态取证指纹一致性损失,提升模型对生成器痕迹的敏感性。
- 实验表明,AMDD在FakeAVCeleb数据集上取得了优异的检测和归因精度,并在跨数据集评估中展现出较强的真实视频检测泛化能力。
📝 摘要(中文)
音频-视频Deepfake已经达到了难以通过感知检测的逼真程度,威胁着媒体的完整性和生物特征安全。虽然多模态检测显示出希望,但大多数方法是二元分类任务,容易利用数据集特定的伪影,而非真正的生成痕迹。我们认为,无法识别视频伪造方式的检测器很可能学习了错误的信号。与二元检测不同,归因引导学习对共享嵌入空间施加了更强的几何约束,迫使模型编码生成器特定的取证内容,而不是捷径。我们提出了归因引导的多模态Deepfake检测(AMDD)框架,该框架联合学习检测和归因操作。AMDD将生成器归因视为一种结构化正则化,将表示几何约束到具有取证意义的特征。我们引入了跨模态取证指纹一致性(CMFFC)损失,以强制视觉和音频流中生成器引起的伪影之间的对齐。这利用了连贯的操作会在模态之间留下相关痕迹这一事实,这些痕迹基于语音和面部关节之间的物理耦合,而合成管道通常会破坏这种耦合。在架构上,我们将带有时间注意力的ResNet50与用于mel频谱图的预训练ResNet18配对,从而缩小了先前模型中发现的编码器容量差距。在FakeAVCeleb上,AMDD实现了99.7%的平衡准确度和99.8%的AUC,归因准确度为95.9%。在DeepfakeTIMIT,DFDM和LAV-DF上的跨数据集评估证实,真实视频检测具有强大的泛化能力,而对未见过的生成器的伪造检测仍然是一个开放的挑战,我们对此进行了深入分析。
🔬 方法详解
问题定义:当前Deepfake检测方法,尤其是多模态方法,往往将检测任务视为简单的二元分类问题,容易学习到数据集特有的伪影,而忽略了Deepfake生成器本身留下的痕迹。这导致模型在面对新的、未见过的Deepfake生成器时,泛化能力较差,容易失效。现有方法缺乏对生成过程的理解和建模,无法有效区分真实的视频和由不同生成器伪造的视频。
核心思路:AMDD的核心思路是将Deepfake检测问题转化为一个联合学习问题,同时进行Deepfake的检测和生成器归因。通过引入生成器归因任务,模型被强制学习与特定生成器相关的取证特征,而不是仅仅依赖于数据集的统计偏差。这种归因引导的学习方式能够提高模型对Deepfake生成过程的理解,从而提升其泛化能力。
技术框架:AMDD框架包含两个主要部分:多模态特征编码器和归因引导学习模块。多模态特征编码器负责从视频的视觉和音频流中提取特征。视觉编码器采用带有时间注意力的ResNet50,音频编码器采用预训练的ResNet18。归因引导学习模块则利用提取的特征进行Deepfake检测和生成器归因。该模块通过一个共享的嵌入空间,将检测和归因任务联系起来,并使用跨模态取证指纹一致性(CMFFC)损失来约束视觉和音频流中生成器引起的伪影之间的对齐。
关键创新:AMDD最重要的技术创新点在于其归因引导的学习方式和跨模态取证指纹一致性损失。归因引导学习迫使模型学习生成器特定的取证特征,从而提高模型的泛化能力。CMFFC损失则利用了Deepfake生成过程中,视觉和音频流之间的不一致性,通过强制视觉和音频流中生成器引起的伪影之间的对齐,进一步提升了模型的检测精度。
关键设计:AMDD的关键设计包括:1) 使用ResNet50和ResNet18分别作为视觉和音频编码器,并引入时间注意力机制,以提高特征提取能力。2) 引入跨模态取证指纹一致性(CMFFC)损失,该损失函数旨在最小化视觉和音频特征之间的差异,从而提高模型对Deepfake的检测精度。3) 将生成器归因任务作为一种结构化正则化,约束表示几何,使其更具取证意义。
🖼️ 关键图片
📊 实验亮点
AMDD在FakeAVCeleb数据集上取得了显著的性能提升,平衡准确度达到99.7%,AUC达到99.8%,归因准确度达到95.9%。跨数据集评估表明,AMDD在真实视频检测方面具有较强的泛化能力。虽然对未见过的生成器的伪造检测仍面临挑战,但AMDD为解决该问题提供了新的思路。
🎯 应用场景
该研究成果可应用于在线视频平台的内容审核,帮助识别和过滤Deepfake视频,维护媒体内容的真实性和可信度。此外,该技术还可用于生物特征认证安全,防止恶意攻击者利用Deepfake进行身份欺骗。未来,该技术有望在打击虚假信息传播、保护个人隐私等方面发挥重要作用。
📄 摘要(原文)
Audio-visual deepfakes have reached a level of realism that makes perceptual detection unreliable, threatening media integrity and biometric security. While multimodal detection has shown promise, most approaches are binary classification tasks that often latch onto dataset-specific artifacts rather than genuine generative traces. We argue that a detector incapable of identifying how a video was forged is likely learning the wrong signal. Unlike binary detection, attribution-guided learning imposes a stronger geometric constraint on the shared embedding space, forcing the model to encode generator-specific forensic content rather than shortcuts. We propose the Attribution-Guided Multimodal Deepfake Detection (AMDD) framework, which jointly learns to detect and attribute manipulation. AMDD treats generator attribution as a structured regularization that constrains representation geometry toward forensically meaningful features. We introduce a Cross-Modal Forensic Fingerprint Consistency (CMFFC) loss to enforce alignment between generator-induced artifacts in visual and audio streams. This exploits the fact that coherent manipulation leaves correlated traces across modalities, grounded in the physical coupling between speech and facial articulation that synthetic pipelines routinely disrupt. Architecturally, we pair a ResNet50 with temporal attention for visual encoding against a pretrained ResNet18 for mel spectrograms, closing the encoder capacity gap found in prior models. On FakeAVCeleb, AMDD achieves 99.7% balanced accuracy and 99.8% AUC with 95.9% attribution accuracy. Cross-dataset evaluation on DeepfakeTIMIT, DFDM, and LAV-DF confirms that real video detection generalizes robustly, while fake detection on unseen generators remains an open challenge that we analyze in depth.