Mining Forgery Traces from Reconstruction Error: A Weakly Supervised Framework for Multimodal Deepfake Temporal Localization

作者: Midou Guo, Qilin Yin, Wei Lu, Xiangyang Luo, Rui Yang

分类: cs.CV

发布日期: 2026-01-29

💡 一句话要点

提出基于重构误差的RT-DeepLoc框架，用于弱监督多模态Deepfake时序定位。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Deepfake检测 时序定位 弱监督学习 重构误差 掩码自编码器 对比学习 视频分析

📋 核心要点

现有Deepfake检测方法难以精确定位视频中篡改发生的时间片段，帧级别标注成本高昂。
RT-DeepLoc利用在真实数据上训练的MAE的重构误差，为伪造片段提供细粒度定位线索。
提出的AICL损失函数，通过重构线索引导，增强局部判别能力，并提升模型对未知伪造的泛化性。

📝 摘要（中文）

现代Deepfake已经演变为局部和间歇性的篡改，需要细粒度的时间定位。由于帧级别标注的成本过高，弱监督方法成为一种实际需求，它仅依赖于视频级别的标签。为此，我们提出了一种基于重构的时间Deepfake定位框架（RT-DeepLoc），该框架通过重构误差来识别伪造。我们的框架使用仅在真实数据上训练的掩码自编码器（MAE）来学习其内在的时空模式；这使得该模型能够为伪造的片段产生显著的重构差异，从而有效地为定位提供缺失的细粒度线索。为了稳健地利用这些指标，我们引入了一种新颖的非对称视频内对比损失（AICL）。通过关注由这些重构线索引导的真实特征的紧凑性，AICL建立了一个稳定的决策边界，增强了局部判别能力，同时保持了对未见过的伪造的泛化能力。在包括LAV-DF在内的大规模数据集上的大量实验表明，RT-DeepLoc在弱监督时间伪造定位方面实现了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决弱监督条件下的Deepfake视频时序定位问题。现有方法需要大量的帧级别标注，成本高昂，限制了其在实际场景中的应用。因此，如何在只有视频级别标签的情况下，精确定位Deepfake视频中被篡改的时间片段，是一个重要的挑战。

核心思路：论文的核心思路是利用重构误差来区分真实视频片段和伪造视频片段。通过训练一个在真实视频数据上表现良好的掩码自编码器（MAE），该模型能够学习到真实视频的时空模式。当输入伪造视频片段时，由于其与真实视频的分布存在差异，MAE会产生较大的重构误差，从而可以作为伪造的指示器。

技术框架：RT-DeepLoc框架主要包含以下几个模块：1) 掩码自编码器（MAE）：用于学习真实视频的时空模式，并生成重构误差。2) 特征提取器：用于提取视频片段的特征表示。3) 非对称视频内对比损失（AICL）：用于训练模型，使其能够区分真实视频片段和伪造视频片段。整体流程是：首先，使用MAE对输入视频片段进行重构，得到重构误差。然后，使用特征提取器提取视频片段的特征表示。最后，使用AICL损失函数训练模型，使其能够根据特征表示和重构误差，判断视频片段是否为伪造。

关键创新：论文的关键创新在于提出了基于重构误差的弱监督时序定位方法，以及非对称视频内对比损失（AICL）。与现有方法相比，该方法不需要帧级别标注，降低了标注成本。同时，AICL损失函数能够有效地利用重构误差，提高模型的定位精度和泛化能力。

关键设计：MAE使用Transformer结构，在真实视频数据上进行预训练。AICL损失函数的设计考虑了真实视频片段和伪造视频片段的不对称性，通过约束真实视频片段的特征表示更加紧凑，从而提高模型的判别能力。具体的，AICL损失函数包含两部分：一部分是对比损失，用于拉近同一视频中真实片段的特征表示，推远真实片段和伪造片段的特征表示；另一部分是正则化项，用于约束真实片段的特征表示更加紧凑。

🖼️ 关键图片

📊 实验亮点

RT-DeepLoc在LAV-DF等大规模数据集上取得了state-of-the-art的性能。实验结果表明，该方法在弱监督时序定位任务中，相比现有方法有显著提升，证明了基于重构误差进行Deepfake检测的有效性。具体提升幅度未知，原文未提供具体数值。

🎯 应用场景

该研究成果可应用于Deepfake检测与溯源、网络安全、媒体内容审核等领域。通过自动定位视频中被篡改的时间片段，可以有效识别和防止Deepfake的传播，维护网络空间的真实性和安全性。此外，该技术还可以用于保护个人隐私，防止恶意篡改个人视频信息。

📄 摘要（原文）

Modern deepfakes have evolved into localized and intermittent manipulations that require fine-grained temporal localization. The prohibitive cost of frame-level annotation makes weakly supervised methods a practical necessity, which rely only on video-level labels. To this end, we propose Reconstruction-based Temporal Deepfake Localization (RT-DeepLoc), a weakly supervised temporal forgery localization framework that identifies forgeries via reconstruction errors. Our framework uses a Masked Autoencoder (MAE) trained exclusively on authentic data to learn its intrinsic spatiotemporal patterns; this allows the model to produce significant reconstruction discrepancies for forged segments, effectively providing the missing fine-grained cues for localization. To robustly leverage these indicators, we introduce a novel Asymmetric Intra-video Contrastive Loss (AICL). By focusing on the compactness of authentic features guided by these reconstruction cues, AICL establishes a stable decision boundary that enhances local discrimination while preserving generalization to unseen forgeries. Extensive experiments on large-scale datasets, including LAV-DF, demonstrate that RT-DeepLoc achieves state-of-the-art performance in weakly-supervised temporal forgery localization.

Mining Forgery Traces from Reconstruction Error: A Weakly Supervised Framework for Multimodal Deepfake Temporal Localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理