Scalable Face Security Vision Foundation Model for Deepfake, Diffusion, and Spoofing Detection

作者: Gaojian Wang, Feng Lin, Tong Wu, Zhisheng Yan, Kui Ren

分类: cs.CV, cs.AI

发布日期: 2025-10-12

备注: 18 pages, 9 figures, project page: https://fsfm-3c.github.io/fsvfm.html

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出FS-VFM，通过自监督学习提升人脸安全任务的泛化能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人脸安全 自监督学习 深度伪造检测 活体检测 视觉基础模型 掩码图像建模 实例判别

📋 核心要点

现有方法在人脸安全任务中泛化性不足，尤其是在深度伪造、活体检测和扩散人脸取证等领域。
FS-VFM通过3C学习目标，结合掩码图像建模和实例判别，学习真实人脸的局部模式和全局语义表示。
实验表明，FS-VFM在多个基准测试中优于现有VFM和特定任务方法，FS-Adapter实现了效率与性能的平衡。

📝 摘要（中文）

本文提出了一种可扩展的自监督预训练框架FS-VFM，旨在学习真实人脸图像的基本表示，从而提升各种人脸安全任务的泛化能力。FS-VFM引入了三个学习目标，即3C，协同了掩码图像建模（MIM）和实例判别（ID），使FS-VFM能够编码真实人脸的局部模式和全局语义。具体而言，论文设计了多种人脸掩码策略用于MIM，并提出了一种简单而有效的CRFR-P掩码，显式地提示模型追求有意义的区域内一致性（Consistency）和具有挑战性的区域间连贯性（Coherency）。论文还提出了一种可靠的自蒸馏机制，将MIM与ID无缝耦合，以建立潜在的局部到全局的对应关系。预训练后，vanilla vision transformers (ViTs) 可作为通用视觉基础模型用于下游人脸安全任务，包括跨数据集的深度伪造检测、跨领域的活体检测和未见过的扩散人脸取证。为了有效地迁移预训练的FS-VFM，论文进一步提出了FS-Adapter，这是一个轻量级的即插即用瓶颈模块，位于冻结的主干网络之上，并具有一种新颖的真实锚点对比目标。在11个公共基准上的大量实验表明，FS-VFM始终比各种VFM（跨越自然和人脸领域、完全监督、弱监督和自监督范式、小型、基础和大型ViT规模）更好地泛化，甚至优于SOTA特定任务的方法，而FS-Adapter提供了出色的效率-性能权衡。

🔬 方法详解

问题定义：现有的人脸安全任务，如深度伪造检测、活体检测和扩散人脸取证，往往依赖于特定数据集或领域的数据进行训练，导致模型在跨数据集、跨领域或面对新型攻击时泛化能力较差。现有的视觉基础模型（VFM）虽然在自然图像领域取得了显著成果，但直接应用于人脸安全领域时，由于人脸的特殊结构和属性，效果并不理想。因此，如何利用大量的无标签真实人脸数据，学习到鲁棒且可迁移的人脸表示，是当前面临的关键问题。

核心思路：论文的核心思路是利用自监督学习，从大量的无标签真实人脸数据中学习到通用的人脸表示。通过结合掩码图像建模（MIM）和实例判别（ID）两种自监督学习方法，模型可以同时学习到人脸的局部模式和全局语义信息。MIM通过预测被掩盖的图像区域来学习局部特征，ID则通过区分不同的实例来学习全局语义。此外，论文还引入了一种自蒸馏机制，将MIM和ID无缝耦合，从而建立局部到全局的对应关系。

技术框架：FS-VFM的整体框架包括预训练阶段和微调阶段。在预训练阶段，模型使用大量的无标签真实人脸数据进行自监督学习。具体来说，模型首先对输入图像进行掩码操作，然后使用MIM和ID两种学习目标进行训练。MIM的目标是预测被掩盖的图像区域，ID的目标是区分不同的实例。通过自蒸馏机制，MIM和ID可以相互促进，从而学习到更鲁棒的人脸表示。在微调阶段，模型使用预训练好的权重初始化，然后在特定的人脸安全任务上进行微调。为了提高微调的效率，论文还提出了FS-Adapter，这是一个轻量级的即插即用模块，可以添加到预训练模型的顶部。

关键创新：论文的关键创新点在于提出了3C学习目标，即Consistency、Coherency和Correspondence。Consistency指的是区域内的一致性，通过CRFR-P掩码策略，模型被显式地提示去学习有意义的区域内特征。Coherency指的是区域间的连贯性，通过CRFR-P掩码策略，模型需要学习不同区域之间的关系。Correspondence指的是局部到全局的对应关系，通过自蒸馏机制，MIM和ID可以相互促进，从而建立局部特征和全局语义之间的联系。

关键设计：CRFR-P掩码策略是论文的关键设计之一。该策略通过随机地掩盖图像区域，并强制模型预测被掩盖的区域，从而学习到鲁棒的局部特征。自蒸馏机制也是一个关键设计。该机制通过将MIM的输出作为ID的输入，从而将MIM和ID无缝耦合。此外，FS-Adapter的设计也考虑了效率和性能的平衡。FS-Adapter是一个轻量级的瓶颈模块，可以添加到预训练模型的顶部，从而在不显著增加计算量的情况下，提高模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FS-VFM在11个公共基准测试中，始终优于各种VFM，包括在跨数据集深度伪造检测、跨领域活体检测和未见过的扩散人脸取证等任务上。FS-VFM甚至超越了SOTA的特定任务方法。FS-Adapter在保持较高性能的同时，显著降低了计算成本，实现了效率与性能的良好平衡。

🎯 应用场景

该研究成果可广泛应用于人脸安全领域，例如深度伪造检测、活体检测、人脸识别安全、以及数字身份验证等。通过提高人脸安全系统的鲁棒性和泛化能力，可以有效防范各种人脸欺骗攻击，保护个人隐私和信息安全，在金融安全、公共安全等领域具有重要的应用价值和潜力。

📄 摘要（原文）

With abundant, unlabeled real faces, how can we learn robust and transferable facial representations to boost generalization across various face security tasks? We make the first attempt and propose FS-VFM, a scalable self-supervised pre-training framework, to learn fundamental representations of real face images. We introduce three learning objectives, namely 3C, that synergize masked image modeling (MIM) and instance discrimination (ID), empowering FS-VFM to encode both local patterns and global semantics of real faces. Specifically, we formulate various facial masking strategies for MIM and devise a simple yet effective CRFR-P masking, which explicitly prompts the model to pursue meaningful intra-region Consistency and challenging inter-region Coherency. We present a reliable self-distillation mechanism that seamlessly couples MIM with ID to establish underlying local-to-global Correspondence. After pre-training, vanilla vision transformers (ViTs) serve as universal Vision Foundation Models for downstream Face Security tasks: cross-dataset deepfake detection, cross-domain face anti-spoofing, and unseen diffusion facial forensics. To efficiently transfer the pre-trained FS-VFM, we further propose FS-Adapter, a lightweight plug-and-play bottleneck atop the frozen backbone with a novel real-anchor contrastive objective. Extensive experiments on 11 public benchmarks demonstrate that our FS-VFM consistently generalizes better than diverse VFMs, spanning natural and facial domains, fully, weakly, and self-supervised paradigms, small, base, and large ViT scales, and even outperforms SOTA task-specific methods, while FS-Adapter offers an excellent efficiency-performance trade-off. The code and models are available on https://fsfm-3c.github.io/fsvfm.html.

Scalable Face Security Vision Foundation Model for Deepfake, Diffusion, and Spoofing Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理