DYMAPIA: A Multi-Domain Framework for Detecting AI-based Video Manipulation

📄 arXiv: 2604.24426v1 📥 PDF

作者: Md Shohel Rana, Andrew H. Sung

分类: cs.CV

发布日期: 2026-04-27


💡 一句话要点

DYMAPIA:融合多域信息的深度伪造视频检测框架,提升检测精度与效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 深度伪造检测 多域融合 动态异常掩码 知识蒸馏 轻量级网络 视频取证 媒体验证

📋 核心要点

  1. 现有深度伪造检测方法难以捕捉细微篡改痕迹,且计算成本高昂,限制了实时应用。
  2. DYMAPIA融合空间、频谱和时间线索,构建动态异常掩码,聚焦篡改区域,提升检测精度。
  3. DistXCNet轻量级分类器,结合深度可分离卷积和知识蒸馏,在保证精度前提下加速推理。

📝 摘要(中文)

本文提出了一种名为DYMAPIA的多域深度伪造检测框架,旨在融合空间、频谱和时间线索,以捕捉视觉数据中细微的篡改痕迹。该系统通过结合傅里叶频谱、局部纹理描述符、边缘不规则性和光流一致性等信息,构建动态异常掩码,从而以精细的空间精度突出显示被篡改的区域。这些掩码引导DistXCNet,这是一个轻量级分类器,从Xception网络中蒸馏而来,并使用深度可分离卷积进行优化,以实现快速、区域聚焦的分类。这种联合设计实现了最先进的结果,在FF++、Celeb-DF和VDFD基准测试中,准确率和F1分数超过99%,同时保持模型足够紧凑,可供实时使用。除了优于现有的全帧和多域检测器外,DYMAPIA还展示了在时间紧迫的取证任务中的部署准备情况,包括媒体验证、虚假信息防御和安全内容过滤。

🔬 方法详解

问题定义:当前深度伪造检测方法在检测细微篡改痕迹时存在困难,并且计算复杂度较高,难以满足实时应用的需求。现有方法通常依赖于全帧图像进行分析,忽略了篡改区域的局部特性,导致检测精度受限。

核心思路:DYMAPIA的核心思路是融合多域信息,包括空间、频谱和时间线索,以更全面地捕捉深度伪造的痕迹。通过构建动态异常掩码,突出显示图像中被篡改的区域,从而引导分类器更加关注这些区域,提高检测精度。

技术框架:DYMAPIA框架主要包含两个阶段:动态异常掩码生成和区域聚焦分类。首先,利用傅里叶频谱、局部纹理描述符、边缘不规则性和光流一致性等信息,生成动态异常掩码。然后,使用DistXCNet分类器,基于这些掩码对图像进行分类,判断其是否为深度伪造图像。DistXCNet是一个轻量级分类器,从Xception网络中蒸馏而来,并使用深度可分离卷积进行优化。

关键创新:DYMAPIA的关键创新在于动态异常掩码的构建和区域聚焦分类。动态异常掩码能够有效地突出显示图像中被篡改的区域,从而引导分类器更加关注这些区域。DistXCNet分类器则能够在保证检测精度的前提下,实现快速推理。

关键设计:动态异常掩码的生成结合了多种特征,包括傅里叶频谱、局部纹理描述符、边缘不规则性和光流一致性。这些特征能够捕捉到深度伪造图像中存在的各种异常。DistXCNet分类器采用深度可分离卷积,减少了模型参数量和计算复杂度。此外,还使用了知识蒸馏技术,将Xception网络的知识迁移到DistXCNet,从而提高其检测精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DYMAPIA在FF++、Celeb-DF和VDFD等基准测试中取得了优异的性能,准确率和F1分数均超过99%,显著优于现有的全帧和多域检测器。同时,该模型保持了较低的计算复杂度,能够满足实时应用的需求,展现了良好的部署潜力。

🎯 应用场景

DYMAPIA可广泛应用于媒体验证、虚假信息防御、安全内容过滤等领域。该框架能够帮助识别和阻止深度伪造视频的传播,维护数字内容的真实性和可信度,在新闻媒体、社交平台、安全监控等场景中具有重要的应用价值。

📄 摘要(原文)

AI-generated media are advancing rapidly, raising pressing concerns for content authenticity and digital trust. We introduce DYMAPIA, a multi-domain Deepfake detection framework that fuses spatial, spectral, and temporal cues to capture subtle traces of manipulation in visual data. The system builds dynamic anomaly masks by combining evidence from Fourier spectra, local texture descriptors, edge irregularities, and optical flow consistency, which highlight tampered regions with fine spatial accuracy. These masks guide DistXCNet, a lightweight classifier distilled from Xception and optimized with depthwise separable convolutions for fast, region-focused classification. This joint design achieves state-of-the-art results, with accuracy and F1-scores exceeding 99\% on FF++, Celeb-DF, and VDFD benchmarks, while keeping the model compact enough for real-time use. Beyond outperforming existing full-frame and multidomain detectors, DYMAPIA demonstrates deployment readiness for time-critical forensic tasks, including media verification, misinformation defense, and secure content filtering.