Direct Discrepancy Replay: Distribution-Discrepancy Condensation and Manifold-Consistent Replay for Continual Face Forgery Detection
作者: Tianshuo Zhang, Haoyuan Zhang, Siran Peng, Weisong Zhao, Xiangyu Zhu, Zhen Lei
分类: cs.CV
发布日期: 2026-04-14
💡 一句话要点
提出直接差异重放方法,解决持续人脸伪造检测中的灾难性遗忘问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 持续学习 人脸伪造检测 灾难性遗忘 分布差异 重放策略
📋 核心要点
- 现有持续人脸伪造检测方法在小内存下,重放历史样本覆盖率不足或合成样本与当前数据不兼容。
- 论文提出直接差异重放,通过浓缩真实与伪造分布差异并结合当前真实人脸进行重放。
- 实验表明,该方法在极小内存预算下,显著优于现有方法,并降低了身份泄露风险。
📝 摘要(中文)
持续人脸伪造检测(CFFD)要求检测器学习新出现的伪造模式,同时不忘记先前见过的篡改方式。现有的CFFD方法通常依赖于重放少量过去的数据来缓解遗忘。这种重放通常通过存储少量历史样本或从依赖于检测器的扰动中合成伪造样本来实现。在严格的内存预算下,前者无法充分覆盖各种伪造线索,并可能暴露面部身份,而后者仍然与过去的决策边界紧密相关。我们认为,重放在CFFD中的核心作用是在后续训练中恢复先前伪造任务的分布。为此,我们直接浓缩真实分布和伪造分布之间的差异,并利用当前阶段的真实人脸来执行分布级别的重放。具体来说,我们引入了分布差异浓缩(DDC),它通过特征函数空间中的代理分解来建模真实到伪造的差异,并将其浓缩成一个小的分布差异图库。我们进一步提出了流形一致重放(MCR),它通过这些图与当前阶段真实人脸的方差保持组合来合成重放样本,从而产生反映先前任务伪造线索的样本,同时与当前真实人脸统计数据保持兼容。在极小的内存预算下运行,且不直接存储原始历史人脸图像,我们的框架始终优于先前的CFFD基线,并显著减轻了灾难性遗忘。重放级别的隐私分析进一步表明,相对于基于选择的重放,身份泄露风险降低。
🔬 方法详解
问题定义:持续人脸伪造检测(CFFD)旨在让模型在不断学习新的伪造方法的同时,保持对旧伪造方法的识别能力,避免灾难性遗忘。现有方法主要依赖于重放,但直接存储历史样本会暴露隐私,而基于扰动合成伪造样本则受限于过去的决策边界,无法有效泛化到新的数据分布。
核心思路:论文的核心思想是直接对真实人脸和伪造人脸的分布差异进行建模和重放,而不是重放原始图像或合成图像。通过浓缩分布差异,并将其与当前阶段的真实人脸结合,生成既能反映过去伪造线索,又能与当前真实人脸统计数据兼容的重放样本。
技术框架:该框架包含两个主要模块:分布差异浓缩(DDC)和流形一致重放(MCR)。DDC模块通过特征函数空间中的代理分解来建模真实到伪造的差异,并将差异信息浓缩成一个小的分布差异图库。MCR模块则利用DDC生成的差异图,与当前阶段的真实人脸进行方差保持组合,生成用于重放的样本。整体流程是,在每个新任务到来时,首先使用DDC提取并存储分布差异图,然后在后续训练中使用MCR生成重放样本,与当前任务的数据一起训练模型。
关键创新:最重要的创新点在于直接对分布差异进行建模和重放,而不是对原始数据或合成数据进行重放。这种方法能够更有效地保留过去任务的信息,同时避免了隐私泄露和泛化能力不足的问题。此外,通过特征函数空间进行差异建模,可以更紧凑地表示分布差异,降低存储成本。
关键设计:DDC模块使用特征函数空间中的代理分解来建模分布差异,具体来说,通过最小化真实数据和伪造数据在特征函数空间中的距离来学习差异图。MCR模块使用方差保持组合来生成重放样本,确保生成的样本与当前真实人脸的统计特性一致。论文还对重放样本的数量和差异图的大小进行了实验分析,以确定最佳的参数设置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在极小的内存预算下,该方法在持续人脸伪造检测任务上显著优于现有基线方法,有效缓解了灾难性遗忘。此外,重放级别的隐私分析表明,相对于基于选择的重放,该方法降低了身份泄露的风险。具体性能提升数据在论文中有详细展示。
🎯 应用场景
该研究成果可应用于各种需要持续学习的图像篡改检测场景,例如社交媒体平台上的虚假信息检测、金融领域的欺诈检测以及安全监控系统中的异常行为识别。通过有效缓解灾难性遗忘,该方法可以提高检测系统的长期性能和可靠性。
📄 摘要(原文)
Continual face forgery detection (CFFD) requires detectors to learn emerging forgery paradigms without forgetting previously seen manipulations. Existing CFFD methods commonly rely on replaying a small amount of past data to mitigate forgetting. Such replay is typically implemented either by storing a few historical samples or by synthesizing pseudo-forgeries from detector-dependent perturbations. Under strict memory budgets, the former cannot adequately cover diverse forgery cues and may expose facial identities, while the latter remains strongly tied to past decision boundaries. We argue that the core role of replay in CFFD is to reinstate the distributions of previous forgery tasks during subsequent training. To this end, we directly condense the discrepancy between real and fake distributions and leverage real faces from the current stage to perform distribution-level replay. Specifically, we introduce Distribution-Discrepancy Condensation (DDC), which models the real-to-fake discrepancy via a surrogate factorization in characteristic-function space and condenses it into a tiny bank of distribution discrepancy maps. We further propose Manifold-Consistent Replay (MCR), which synthesizes replay samples through variance-preserving composition of these maps with current-stage real faces, yielding samples that reflect previous-task forgery cues while remaining compatible with current real-face statistics. Operating under an extremely small memory budget and without directly storing raw historical face images, our framework consistently outperforms prior CFFD baselines and significantly mitigates catastrophic forgetting. Replay-level privacy analysis further suggests reduced identity leakage risk relative to selection-based replay.