Flow Augmentation and Knowledge Distillation for Lightweight Face Presentation Attack Detection

作者: Muhammad Shahid Jabbar, Muhammad Sohail Ibrahim, Taha Hasan Masood Siddique, Kejie Huang, Shujaat Khan

分类: cs.CV

发布日期: 2026-05-13

备注: Accepted at 2026 International Conference on Automatic Face and Gesture Recognition (FG)

💡 一句话要点

提出基于光流增强和知识蒸馏的轻量级人脸活体检测方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人脸活体检测 知识蒸馏 光流增强 轻量级模型 运动信息

📋 核心要点

现有FacePAD方法在复杂攻击和资源受限场景下表现不佳，显式光流计算增加计算负担。
提出一种基于知识蒸馏的框架，利用光流增强教师模型，将运动知识迁移到轻量级学生模型。
实验表明，该方法在多个数据集上取得优异性能，并在嵌入式设备上实现实时推理。

📝 摘要（中文）

人脸活体检测(FacePAD)在各种欺骗表示（包括2D打印和重放、基于3D面具的欺骗、化妆引起的表观操纵和物理遮挡）以及不同的捕获条件下仍然具有挑战性。运动线索对于FacePAD具有高度区分性，但通常需要显式光流估计，这会带来大量的计算开销并限制实时部署。本文利用光流来增强训练期间的运动表示，同时消除推理时对光流计算的需求。我们提出了一个双分支教师模型，该模型融合了来自RGB帧的表观线索和来自colorwheel编码光流的运动线索，从而能够有效地建模微小运动和时间一致性。为了实现高效部署，我们引入了一个知识蒸馏框架，该框架通过logit蒸馏将运动感知知识从光流增强的教师模型传递到轻量级的仅RGB学生模型。因此，学生模型隐式地学习了运动敏感的表示，而无需在推理时进行显式光流估计或其他特征提取模块。大量实验表明，该方法在多个基准测试中表现出色，在Replay-Attack和Replay-Mobile上实现了0.0%的HTER，在ROSE-Youtu上实现了0.94%的HTER，在SiW-Mv2上实现了5.65%的HTER，在OULU-NPU上实现了0.42%的ACER。经过蒸馏的学生模型实现了与教师模型相当或更好的性能，同时显著减少了参数和FLOPs，在NVIDIA Jetson Orin Nano上实现了52 FPS，表明其适用于实时和资源受限的FacePAD部署。

🔬 方法详解

问题定义：现有的人脸活体检测方法在面对多样化的攻击手段（如2D打印、3D面具等）以及不同的光照、姿态等条件下，鲁棒性较差。同时，为了提取运动信息，一些方法依赖于显式的光流计算，这会引入大量的计算开销，难以在资源受限的设备上实时部署。因此，如何在保证检测精度的前提下，降低计算复杂度，实现轻量级的人脸活体检测是本文要解决的问题。

核心思路：本文的核心思路是利用知识蒸馏技术，将一个具有较强运动感知能力的教师模型中的知识迁移到一个轻量级的学生模型中。教师模型通过融合RGB图像和光流信息来学习运动特征，而学生模型仅使用RGB图像作为输入。通过知识蒸馏，学生模型可以隐式地学习到运动信息，从而在不需要显式计算光流的情况下，也能达到较好的检测效果。

技术框架：该方法包含一个双分支教师模型和一个单分支学生模型。教师模型包含RGB分支和光流分支，分别提取表观特征和运动特征，然后将两者融合。学生模型仅包含RGB分支，结构相对简单。训练过程分为两个阶段：首先训练教师模型，然后使用教师模型指导学生模型进行训练。知识蒸馏通过最小化教师模型和学生模型的输出logits之间的差异来实现。

关键创新：该方法最重要的技术创新点在于利用知识蒸馏，将光流信息隐式地迁移到学生模型中。与直接训练一个复杂的模型相比，知识蒸馏可以有效地降低模型的复杂度，提高模型的推理速度。此外，该方法还提出了一种双分支教师模型，可以更好地融合RGB图像和光流信息。

关键设计：教师模型的光流分支使用colorwheel编码的光流作为输入，可以更好地表示运动信息。知识蒸馏使用logit蒸馏，即最小化教师模型和学生模型的输出logits之间的差异。学生模型的网络结构可以根据实际需求进行选择，本文选择了一个轻量级的网络结构，以保证推理速度。损失函数包括分类损失和蒸馏损失，其中分类损失用于保证模型的分类精度，蒸馏损失用于将教师模型的知识迁移到学生模型中。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多个公开数据集上取得了优异的性能。例如，在Replay-Attack和Replay-Mobile数据集上，HTER达到了0.0%。在SiW-Mv2数据集上，HTER为5.65%。同时，经过蒸馏的学生模型在NVIDIA Jetson Orin Nano上实现了52 FPS的推理速度，表明其具有良好的实时性。

🎯 应用场景

该研究成果可应用于各种需要进行人脸活体检测的场景，例如移动支付、门禁系统、身份验证等。通过在资源受限的设备上部署轻量级的学生模型，可以实现实时、安全的身份验证，提高用户体验。此外，该方法还可以扩展到其他需要进行运动分析的领域，例如视频监控、行为识别等。

📄 摘要（原文）

Face presentation attack detection (FacePAD) remains challenging under diverse spoofing representation, including 2D print and replay, 3D mask-based spoofing, makeup-induced appearance manipulation, and physical occlusions, as well as under varying capture conditions. Motion cues are highly discriminative for FacePAD but typically require explicit optical flow estimation, which introduces substantial computational overhead and limits real-time deployment. In this work, we leverage optical flow to enhance motion representation during training while eliminating the need for flow computation at inference. We propose a dual-branch teacher model that fuses appearance cues from RGB frames with motion cues derived from colorwheel-encoded optical flow, enabling effective modeling of micro-motions and temporal consistency. To enable efficient deployment, we introduce a knowledge distillation framework that transfers motion-aware knowledge from the flow-augmented teacher to a lightweight RGB-only student via logit distillation. As a result, the student implicitly learns motion-sensitive representations without requiring explicit flow estimation or additional feature extraction blocks at inference. Extensive experiments demonstrate strong performance across multiple benchmarks, achieving 0.0% HTER on Replay-Attack and Replay-Mobile, 0.94% HTER on ROSE-Youtu, 5.65% HTER on SiW-Mv2, and 0.42% ACER on OULU-NPU. The distilled student achieves performance comparable to or better than the teacher while significantly reducing parameters and FLOPs, achieving 52 FPS on an NVIDIA Jetson Orin Nano, indicating its suitability for real-time and resource-constrained FacePAD deployment.

Flow Augmentation and Knowledge Distillation for Lightweight Face Presentation Attack Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理