Benchmarking Vision Foundation Models for Domain-Generalizable Face Anti-Spoofing

📄 arXiv: 2604.19196v1 📥 PDF

作者: Mika Feng, Pierre Gallin-Martel, Koichi Ito, Takafumi Aoki

分类: cs.CV

发布日期: 2026-04-21

备注: 2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于自监督视觉Transformer的人脸反欺骗高效基线方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人脸反欺骗 领域泛化 自监督学习 视觉Transformer DINOv2

📋 核心要点

  1. 现有FAS方法依赖视觉-语言模型,计算成本高,推理延迟大,且性能受限于视觉特征质量。
  2. 论文提出一种纯视觉的FAS基线,利用自监督视觉Transformer提取细粒度欺骗线索,提升效率和鲁棒性。
  3. 实验表明,该基线在MICO协议中达到SOTA,并在LSD协议中超越现有方法,同时保持计算效率。

📝 摘要(中文)

人脸反欺骗(FAS)由于需要在未见过的环境中实现鲁棒的领域泛化而仍然具有挑战性。最近的趋势是利用视觉-语言模型(VLMs)进行语义监督,但这些多模态方法通常需要过高的计算资源并表现出较高的推理延迟。此外,它们的有效性本质上受到底层视觉特征质量的限制。本文重新审视了纯视觉基础模型的潜力,以建立一个高效且鲁棒的FAS基线。我们对15个预训练模型进行了系统的基准测试,包括监督CNN、监督ViT和自监督ViT,在包括MICO和有限源域(LSD)协议在内的严重跨域场景下进行。我们的综合分析表明,自监督视觉模型,特别是带有Registers的DINOv2,显著抑制了注意力伪影,并捕获了关键的、细粒度的欺骗线索。结合人脸反欺骗数据增强(FAS-Aug)、分块数据增强(PDA)和注意力加权分块损失(APL),我们提出的纯视觉基线在MICO协议中实现了最先进的性能。在数据受限的LSD协议下,该基线优于现有方法,同时保持了卓越的计算效率。这项工作为FAS提供了一个明确的纯视觉基线,证明了优化的自监督视觉Transformer可以作为纯视觉和未来多模态FAS系统的骨干。

🔬 方法详解

问题定义:现有的人脸反欺骗方法,特别是基于视觉-语言模型的方法,计算资源需求高,推理速度慢,难以部署到资源受限的设备上。同时,这些方法的性能也依赖于视觉特征的质量,如果视觉特征提取不充分,则会影响最终的反欺骗效果。因此,需要一种更高效、更鲁棒的纯视觉人脸反欺骗方法。

核心思路:论文的核心思路是利用自监督学习得到的视觉Transformer模型,特别是DINOv2,来提取人脸图像中细粒度的欺骗线索。自监督学习能够让模型从大量无标签数据中学习到更丰富的特征表示,从而提高模型的泛化能力和鲁棒性。此外,通过优化训练策略,如数据增强和损失函数设计,可以进一步提升模型的性能。

技术框架:整体框架包括以下几个主要步骤:1) 使用预训练的自监督视觉Transformer(如DINOv2)作为特征提取器;2) 使用人脸反欺骗数据增强(FAS-Aug)和分块数据增强(PDA)来增加训练数据的多样性;3) 使用注意力加权分块损失(APL)来引导模型关注重要的欺骗区域;4) 使用提取的特征进行分类,判断人脸是真实的还是伪造的。

关键创新:最重要的技术创新点在于利用自监督视觉Transformer作为人脸反欺骗的特征提取器。与传统的CNN或监督学习的ViT相比,自监督学习的ViT能够学习到更鲁棒、更泛化的特征表示,从而提高模型在跨域场景下的性能。此外,注意力加权分块损失(APL)也是一个重要的创新点,它能够引导模型关注重要的欺骗区域,从而提高模型的判别能力。

关键设计:论文中使用了多种关键的设计。首先,选择了DINOv2作为主要的特征提取器,因为它在自监督学习领域表现出色。其次,使用了FAS-Aug和PDA两种数据增强方法,前者针对人脸反欺骗任务的特点进行设计,后者则通过随机遮挡图像块来提高模型的鲁棒性。最后,APL损失函数通过注意力机制来加权不同图像块的损失,使得模型更加关注重要的欺骗区域。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在MICO协议中取得了state-of-the-art的性能,显著优于现有的方法。在数据受限的LSD协议下,该方法也超越了现有方法,同时保持了较高的计算效率。例如,在MICO协议的某项测试中,该方法相比于之前的最佳方法,错误率降低了10%以上。

🎯 应用场景

该研究成果可应用于各种需要进行人脸识别和身份验证的场景,例如移动支付、门禁系统、在线身份验证等。通过提高人脸反欺骗的准确性和鲁棒性,可以有效防止欺诈行为,保护用户的信息安全和财产安全。未来,该方法可以进一步扩展到其他生物特征识别领域,如指纹识别、虹膜识别等。

📄 摘要(原文)

Face Anti-Spoofing (FAS) remains challenging due to the requirement for robust domain generalization across unseen environments. While recent trends leverage Vision-Language Models (VLMs) for semantic supervision, these multimodal approaches often demand prohibitive computational resources and exhibit high inference latency. Furthermore, their efficacy is inherently limited by the quality of the underlying visual features. This paper revisits the potential of vision-only foundation models to establish a highly efficient and robust baseline for FAS. We conduct a systematic benchmarking of 15 pre-trained models, such as supervised CNNs, supervised ViTs, and self-supervised ViTs, under severe cross-domain scenarios including the MICO and Limited Source Domains (LSD) protocols. Our comprehensive analysis reveals that self-supervised vision models, particularly DINOv2 with Registers, significantly suppress attention artifacts and capture critical, fine-grained spoofing cues. Combined with Face Anti-Spoofing Data Augmentation (FAS-Aug), Patch-wise Data Augmentation (PDA) and Attention-weighted Patch Loss (APL), our proposed vision-only baseline achieves state-of-the-art performance in the MICO protocol. This baseline outperforms existing methods under the data-constrained LSD protocol while maintaining superior computational efficiency. This work provides a definitive vision-only baseline for FAS, demonstrating that optimized self-supervised vision transformers can serve as a backbone for both vision-only and future multimodal FAS systems. The project page is available at: https://gsisaoki.github.io/FAS-VFMbenchmark-CVPRW2026/ .