DifFoundMAD: Foundation Models meet Differential Morphing Attack Detection

📄 arXiv: 2604.17961v1 📥 PDF

作者: Lazaro J. Gonzalez-Soler, André Dörsch, Christian Rathgeb, Christoph Busch

分类: cs.CV

发布日期: 2026-04-20


💡 一句话要点

DifFoundMAD:利用视觉基础模型进行高效人脸图像差分变脸攻击检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人脸图像 变脸攻击检测 差分方法 视觉基础模型 深度学习

📋 核心要点

  1. 现有差分变脸攻击检测方法依赖人脸识别嵌入或手工特征,泛化能力有限,难以适应复杂场景。
  2. DifFoundMAD利用视觉基础模型的强大表征能力,通过轻量级微调和类别平衡优化,有效提取人脸图像差异。
  3. 实验表明,DifFoundMAD在跨数据库评估中显著优于现有方法,尤其在高安全级别下错误率大幅降低。

📝 摘要(中文)

本文提出了一种参数高效的差分变脸攻击检测(D-MAD)框架DifFoundMAD,它利用视觉基础模型(FM)的泛化能力来捕捉可疑变脸图像和真实人脸图像之间的差异。与依赖于人脸识别嵌入或手工特征差异的传统D-MAD系统不同,DifFoundMAD遵循标准的差分范式,但将底层表示空间替换为从FM中提取的嵌入。通过结合轻量级微调和类别平衡优化,该方法仅更新一小部分参数,同时保留了底层FM丰富的表征先验。在标准D-MAD基准上的大量跨数据库评估表明,DifFoundMAD在最先进的系统上实现了持续改进,尤其是在边境控制等实际部署中所需的高安全级别上:使用DifFoundMAD,当前最先进技术报告的错误率在高安全级别下从6.16%降低到2.17%。

🔬 方法详解

问题定义:论文旨在解决人脸图像变脸攻击检测问题,即判断给定图像是否是由两张或多张人脸合成的变脸图像。现有方法,如基于人脸识别嵌入或手工特征的差分变脸攻击检测(D-MAD)系统,在泛化能力和鲁棒性方面存在不足,难以有效应对各种变脸攻击。

核心思路:论文的核心思路是利用视觉基础模型(FM)强大的表征学习能力,将人脸图像映射到高维特征空间,并通过比较可疑变脸图像和真实人脸图像在该空间中的差异来进行检测。这种方法避免了手工设计特征的局限性,并能够更好地捕捉人脸图像的细微变化。

技术框架:DifFoundMAD框架主要包含以下几个阶段:1) 使用视觉基础模型提取人脸图像的嵌入表示;2) 计算可疑变脸图像和真实人脸图像嵌入之间的差异;3) 使用轻量级分类器对差异特征进行分类,判断是否为变脸攻击。框架采用差分范式,即关注图像之间的差异而非绝对特征。

关键创新:该方法最重要的创新点在于将视觉基础模型引入到差分变脸攻击检测中。与传统方法相比,DifFoundMAD能够利用FM预训练的知识,从而获得更具判别性和泛化能力的特征表示。此外,论文还提出了轻量级微调和类别平衡优化策略,以提高模型的训练效率和性能。

关键设计:论文采用预训练的视觉基础模型(具体模型未知)作为特征提取器。为了降低计算成本和防止过拟合,只对FM的部分参数进行微调。损失函数采用类别平衡交叉熵损失,以解决训练数据中正负样本比例不平衡的问题。分类器采用简单的线性层或多层感知机。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DifFoundMAD在标准D-MAD基准上进行了广泛的跨数据库评估,结果表明其性能显著优于现有最先进的系统。在高安全级别下,DifFoundMAD将错误率从6.16%降低到2.17%,表明其在实际应用中具有很高的安全性。

🎯 应用场景

DifFoundMAD可应用于身份验证、边境安全、金融安全等领域,有效防止人脸图像变脸攻击,提高系统的安全性。该研究成果有助于提升人脸识别系统的鲁棒性和可靠性,减少欺诈行为,具有重要的实际应用价值和潜在的社会影响。

📄 摘要(原文)

In this work, we introduce DifFoundMAD, a parameter-efficient D-MAD framework that exploits the generalisation capabilities of vision foundation models (FM) to capture discrepancies between suspected morphs and live capture images. In contrast to conventional D-MAD systems that rely on face recognition embeddings or handcrafted feature differences, DifFoundMAD follows the standard differential paradigm while replacing the underlying representation space with embeddings extracted from FMs. By combining lightweight finetuning with class-balanced optimisation, the proposed method updates only a small subset of parameters while preserving the rich representational priors of the underlying FMs. Extensive cross-database evaluations on standard D-MAD benchmarks demonstrate that DifFoundMAD achieves consistent improvements over state-of-the-art systems, particularly at the strict security levels required in operational deployments such as border control: The error rates reported in the current state-of-the-art were reduced from 6.16% to 2.17% for high-security levels using DifFoundMAD.