G$^2$V$^2$former: Graph Guided Video Vision Transformer for Face Anti-Spoofing
作者: Jingyi Yang, Zitong Yu, Xiuming Ni, Jia He, Hui Li
分类: cs.CV
发布日期: 2024-08-14 (更新: 2025-02-16)
备注: 11 pages, 5 figures
💡 一句话要点
提出G$^2$V$^2$former,结合人脸和 Landmark,解决视频人脸反欺骗中动态线索缺失问题。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 人脸反欺骗 视频分析 视觉Transformer 图神经网络 时间注意力 克罗内克积
📋 核心要点
- 现有的人脸反欺骗方法侧重于单帧图像,忽略了视频中随时间变化的动态欺骗线索。
- G$^2$V$^2$former结合人脸图像和面部Landmark,通过图结构引导,融合光度特征和动态特征。
- 提出的克罗内克时间注意力具有更宽的感受野,能有效捕获动态信息,并在多个数据集上取得优异性能。
📝 摘要(中文)
本文提出了一种名为图引导视频视觉Transformer (G$^2$V$^2$former) 的人脸反欺骗(FAS)方法,旨在结合光度信息和动态异常来检测欺骗人脸。现有方法主要集中在单帧场景,忽略了可能随时间暴露的动态欺骗线索,导致误判,尤其是在动态上易于区分但在光度上难以辨别的案例中。G$^2$V$^2$former将人脸与面部Landmark相结合,用于光度特征和动态特征融合。该方法将注意力分解为空间和时间,并通过时空块融合它们。特别地,设计了一种新颖的克罗内克时间注意力,它具有更宽的感受野,有利于捕获动态信息。此外,利用面部Landmark的低语义运动来引导面部表情的高语义变化,基于Landmark区域可能揭示更多动态线索的动机。在九个基准数据集上的大量实验表明,该方法在各种场景下均取得了优异的性能。代码即将发布。
🔬 方法详解
问题定义:现有的人脸反欺骗方法主要依赖于单帧图像的光度信息,忽略了视频中存在的动态欺骗线索。当光度信息难以区分真假人脸时,动态信息可能成为关键的判别依据。因此,如何有效利用视频中的动态信息,提高人脸反欺骗的准确性,是本文要解决的问题。
核心思路:本文的核心思路是将人脸图像和面部Landmark信息相结合,利用Landmark的运动来引导人脸表情的变化分析。通过图结构建模Landmark之间的关系,并设计新的时间注意力机制,从而更好地捕捉视频中的动态欺骗线索。
技术框架:G$^2$V$^2$former的整体框架包括以下几个主要模块:1) 特征提取模块:分别提取人脸图像和面部Landmark的特征。2) 图引导模块:利用图神经网络建模Landmark之间的关系,并利用Landmark的运动信息引导人脸特征的学习。3) 时空注意力模块:将注意力机制分解为空间注意力和时间注意力,并通过时空块融合它们。其中,时间注意力采用克罗内克时间注意力机制,以扩大感受野。4) 分类模块:根据提取的特征进行真假人脸的分类。
关键创新:本文最关键的创新点在于提出了克罗内克时间注意力机制。与传统的注意力机制相比,克罗内克时间注意力具有更宽的感受野,能够更好地捕捉视频中的长时依赖关系。此外,利用Landmark的运动信息来引导人脸特征的学习,也是一个重要的创新点。
关键设计:在克罗内克时间注意力中,作者使用了克罗内克积来扩展时间维度的注意力权重,从而实现更宽的感受野。在图引导模块中,作者使用了图卷积网络来建模Landmark之间的关系。损失函数方面,使用了交叉熵损失函数来训练分类器。具体的网络结构参数和训练细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
在九个基准数据集上的大量实验表明,G$^2$V$^2$former在各种场景下均取得了优异的性能。具体而言,该方法在一些数据集上的准确率超过了现有最佳方法,并且在跨数据集测试中也表现出良好的泛化能力。实验结果证明了该方法在人脸反欺骗任务中的有效性和鲁棒性。
🎯 应用场景
该研究成果可应用于各种需要进行人脸验证的场景,例如移动支付、门禁系统、身份认证等。通过提高人脸反欺骗的准确性,可以有效防止欺诈行为,保障用户的信息安全和财产安全。未来,该方法可以进一步扩展到其他生物特征识别领域,例如指纹识别、虹膜识别等。
📄 摘要(原文)
In videos containing spoofed faces, we may uncover the spoofing evidence based on either photometric or dynamic abnormality, even a combination of both. Prevailing face anti-spoofing (FAS) approaches generally concentrate on the single-frame scenario, however, purely photometric-driven methods overlook the dynamic spoofing clues that may be exposed over time. This may lead FAS systems to conclude incorrect judgments, especially in cases where it is easily distinguishable in terms of dynamics but challenging to discern in terms of photometrics. To this end, we propose the Graph Guided Video Vision Transformer (G$^2$V$^2$former), which combines faces with facial landmarks for photometric and dynamic feature fusion. We factorize the attention into space and time, and fuse them via a spatiotemporal block. Specifically, we design a novel temporal attention called Kronecker temporal attention, which has a wider receptive field, and is beneficial for capturing dynamic information. Moreover, we leverage the low-semantic motion of facial landmarks to guide the high-semantic change of facial expressions based on the motivation that regions containing landmarks may reveal more dynamic clues. Extensive experiments on nine benchmark datasets demonstrate that our method achieves superior performance under various scenarios. The codes will be released soon.