Scalable Face Security Vision Foundation Model for Deepfake, Diffusion, and Spoofing Detection

📄 arXiv: 2510.10663v1 📥 PDF

作者: Gaojian Wang, Feng Lin, Tong Wu, Zhisheng Yan, Kui Ren

分类: cs.CV, cs.AI

发布日期: 2025-10-12

备注: 18 pages, 9 figures, project page: https://fsfm-3c.github.io/fsvfm.html

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出FS-VFM,通过自监督学习提升人脸安全任务的泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人脸安全 自监督学习 深度伪造检测 活体检测 视觉基础模型 掩码图像建模 实例判别

📋 核心要点

  1. 现有方法在人脸安全任务中泛化性不足,尤其是在深度伪造、活体检测和扩散人脸取证等领域。
  2. FS-VFM通过3C学习目标,结合掩码图像建模和实例判别,学习真实人脸的局部模式和全局语义表示。
  3. 实验表明,FS-VFM在多个基准测试中优于现有VFM和特定任务方法,FS-Adapter实现了效率与性能的平衡。

📝 摘要(中文)

本文提出了一种可扩展的自监督预训练框架FS-VFM,旨在学习真实人脸图像的基本表示,从而提升各种人脸安全任务的泛化能力。FS-VFM引入了三个学习目标,即3C,协同了掩码图像建模(MIM)和实例判别(ID),使FS-VFM能够编码真实人脸的局部模式和全局语义。具体而言,论文设计了多种人脸掩码策略用于MIM,并提出了一种简单而有效的CRFR-P掩码,显式地提示模型追求有意义的区域内一致性(Consistency)和具有挑战性的区域间连贯性(Coherency)。论文还提出了一种可靠的自蒸馏机制,将MIM与ID无缝耦合,以建立潜在的局部到全局的对应关系。预训练后,vanilla vision transformers (ViTs) 可作为通用视觉基础模型用于下游人脸安全任务,包括跨数据集的深度伪造检测、跨领域的活体检测和未见过的扩散人脸取证。为了有效地迁移预训练的FS-VFM,论文进一步提出了FS-Adapter,这是一个轻量级的即插即用瓶颈模块,位于冻结的主干网络之上,并具有一种新颖的真实锚点对比目标。在11个公共基准上的大量实验表明,FS-VFM始终比各种VFM(跨越自然和人脸领域、完全监督、弱监督和自监督范式、小型、基础和大型ViT规模)更好地泛化,甚至优于SOTA特定任务的方法,而FS-Adapter提供了出色的效率-性能权衡。

🔬 方法详解

问题定义:现有的人脸安全任务,如深度伪造检测、活体检测和扩散人脸取证,往往依赖于特定数据集或领域的数据进行训练,导致模型在跨数据集、跨领域或面对新型攻击时泛化能力较差。现有的视觉基础模型(VFM)虽然在自然图像领域取得了显著成果,但直接应用于人脸安全领域时,由于人脸的特殊结构和属性,效果并不理想。因此,如何利用大量的无标签真实人脸数据,学习到鲁棒且可迁移的人脸表示,是当前面临的关键问题。

核心思路:论文的核心思路是利用自监督学习,从大量的无标签真实人脸数据中学习到通用的人脸表示。通过结合掩码图像建模(MIM)和实例判别(ID)两种自监督学习方法,模型可以同时学习到人脸的局部模式和全局语义信息。MIM通过预测被掩盖的图像区域来学习局部特征,ID则通过区分不同的实例来学习全局语义。此外,论文还引入了一种自蒸馏机制,将MIM和ID无缝耦合,从而建立局部到全局的对应关系。

技术框架:FS-VFM的整体框架包括预训练阶段和微调阶段。在预训练阶段,模型使用大量的无标签真实人脸数据进行自监督学习。具体来说,模型首先对输入图像进行掩码操作,然后使用MIM和ID两种学习目标进行训练。MIM的目标是预测被掩盖的图像区域,ID的目标是区分不同的实例。通过自蒸馏机制,MIM和ID可以相互促进,从而学习到更鲁棒的人脸表示。在微调阶段,模型使用预训练好的权重初始化,然后在特定的人脸安全任务上进行微调。为了提高微调的效率,论文还提出了FS-Adapter,这是一个轻量级的即插即用模块,可以添加到预训练模型的顶部。

关键创新:论文的关键创新点在于提出了3C学习目标,即Consistency、Coherency和Correspondence。Consistency指的是区域内的一致性,通过CRFR-P掩码策略,模型被显式地提示去学习有意义的区域内特征。Coherency指的是区域间的连贯性,通过CRFR-P掩码策略,模型需要学习不同区域之间的关系。Correspondence指的是局部到全局的对应关系,通过自蒸馏机制,MIM和ID可以相互促进,从而建立局部特征和全局语义之间的联系。

关键设计:CRFR-P掩码策略是论文的关键设计之一。该策略通过随机地掩盖图像区域,并强制模型预测被掩盖的区域,从而学习到鲁棒的局部特征。自蒸馏机制也是一个关键设计。该机制通过将MIM的输出作为ID的输入,从而将MIM和ID无缝耦合。此外,FS-Adapter的设计也考虑了效率和性能的平衡。FS-Adapter是一个轻量级的瓶颈模块,可以添加到预训练模型的顶部,从而在不显著增加计算量的情况下,提高模型的性能。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,FS-VFM在11个公共基准测试中,始终优于各种VFM,包括在跨数据集深度伪造检测、跨领域活体检测和未见过的扩散人脸取证等任务上。FS-VFM甚至超越了SOTA的特定任务方法。FS-Adapter在保持较高性能的同时,显著降低了计算成本,实现了效率与性能的良好平衡。

🎯 应用场景

该研究成果可广泛应用于人脸安全领域,例如深度伪造检测、活体检测、人脸识别安全、以及数字身份验证等。通过提高人脸安全系统的鲁棒性和泛化能力,可以有效防范各种人脸欺骗攻击,保护个人隐私和信息安全,在金融安全、公共安全等领域具有重要的应用价值和潜力。

📄 摘要(原文)

With abundant, unlabeled real faces, how can we learn robust and transferable facial representations to boost generalization across various face security tasks? We make the first attempt and propose FS-VFM, a scalable self-supervised pre-training framework, to learn fundamental representations of real face images. We introduce three learning objectives, namely 3C, that synergize masked image modeling (MIM) and instance discrimination (ID), empowering FS-VFM to encode both local patterns and global semantics of real faces. Specifically, we formulate various facial masking strategies for MIM and devise a simple yet effective CRFR-P masking, which explicitly prompts the model to pursue meaningful intra-region Consistency and challenging inter-region Coherency. We present a reliable self-distillation mechanism that seamlessly couples MIM with ID to establish underlying local-to-global Correspondence. After pre-training, vanilla vision transformers (ViTs) serve as universal Vision Foundation Models for downstream Face Security tasks: cross-dataset deepfake detection, cross-domain face anti-spoofing, and unseen diffusion facial forensics. To efficiently transfer the pre-trained FS-VFM, we further propose FS-Adapter, a lightweight plug-and-play bottleneck atop the frozen backbone with a novel real-anchor contrastive objective. Extensive experiments on 11 public benchmarks demonstrate that our FS-VFM consistently generalizes better than diverse VFMs, spanning natural and facial domains, fully, weakly, and self-supervised paradigms, small, base, and large ViT scales, and even outperforms SOTA task-specific methods, while FS-Adapter offers an excellent efficiency-performance trade-off. The code and models are available on https://fsfm-3c.github.io/fsvfm.html.