EventFace: Event-Based Face Recognition via Structure-Driven Spatiotemporal Modeling

📄 arXiv: 2604.06782v1 📥 PDF

作者: Qingguo Meng, Xingbo Dong, Zhe Jin, Massimo Tistarelli

分类: cs.CV

发布日期: 2026-04-08


💡 一句话要点

EventFace:通过结构驱动的时空建模实现基于事件的人脸识别

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 事件相机 人脸识别 时空建模 迁移学习 低秩自适应

📋 核心要点

  1. 传统RGB人脸识别在光照变化和隐私保护方面存在局限性,而基于事件相机的人脸识别缺乏稳定的光度信息,难以直接应用。
  2. EventFace框架通过LoRA迁移RGB人脸模型的结构先验,并利用运动提示编码器和时空调制器融合时空特征,实现更鲁棒的身份表示。
  3. 实验结果表明,EventFace在自建的EFace数据集上取得了优异的识别率和等错误率,并在光照退化情况下表现出更强的鲁棒性。

📝 摘要(中文)

事件相机在人脸识别领域展现出潜力,这得益于其在光照鲁棒性和隐私保护方面的优势。然而,事件流缺乏传统基于RGB的人脸识别系统所依赖的稳定光度外观。因此,我们认为基于事件的人脸识别应建模由刚性面部运动和个体面部几何结构塑造的结构驱动的时空身份表示。由于缺乏专门的基于事件的人脸识别数据集,我们构建了EFace,这是一个在刚性面部运动下捕获的小规模基于事件的人脸数据集。为了有效地从有限的事件数据中学习,我们进一步提出了EventFace,一个用于基于事件的人脸识别的框架,它集成了空间结构和时间动态来进行身份建模。具体来说,我们采用低秩自适应(LoRA)将来自预训练RGB人脸模型的结构化面部先验知识迁移到事件域,从而为身份建模建立可靠的空间基础。在此基础上,我们进一步引入了运动提示编码器(MPE)来显式地编码时间特征,并引入时空调制器(STM)将它们与空间特征融合,从而增强了与身份相关的事件模式的表示。大量的实验表明,EventFace在评估的基线中实现了最佳性能,Rank-1识别率为94.19%,等错误率(EER)为5.35%。结果进一步表明,EventFace在光照退化下比竞争方法表现出更强的鲁棒性。此外,学习到的表示表现出降低的模板可重构性。

🔬 方法详解

问题定义:论文旨在解决基于事件相机的人脸识别问题。现有方法难以直接利用事件流进行人脸识别,因为事件流缺乏传统RGB图像中的稳定光度信息,且缺乏大规模的事件人脸数据集。这使得模型难以学习到有效的身份表示,尤其是在光照变化等挑战性场景下。

核心思路:论文的核心思路是利用结构驱动的时空建模方法,将面部结构先验知识和时间动态信息相结合,从而学习到更鲁棒的身份表示。具体来说,通过迁移学习将预训练的RGB人脸模型的结构先验知识迁移到事件域,并利用运动信息来增强身份表示。

技术框架:EventFace框架主要包含三个模块:LoRA模块、运动提示编码器(MPE)和时空调制器(STM)。首先,LoRA模块用于将预训练的RGB人脸模型的结构先验知识迁移到事件域,建立可靠的空间基础。然后,MPE模块用于显式地编码时间特征,捕捉面部运动信息。最后,STM模块将空间特征和时间特征进行融合,从而增强与身份相关的事件模式的表示。

关键创新:论文的关键创新在于提出了一个结构驱动的时空建模框架,该框架能够有效地利用事件流中的空间结构和时间动态信息进行人脸识别。通过LoRA迁移结构先验知识,并利用MPE和STM模块融合时空特征,从而学习到更鲁棒的身份表示。

关键设计:LoRA模块采用低秩分解的方式来减少参数量,并加速迁移学习过程。MPE模块采用Transformer结构来编码时间特征。STM模块采用注意力机制来融合空间特征和时间特征。损失函数方面,使用了交叉熵损失函数来训练模型。EFace数据集包含少量个体,每个个体包含多种刚性面部运动,用于训练和评估模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EventFace在自建的EFace数据集上取得了显著的性能提升,Rank-1识别率达到94.19%,等错误率(EER)为5.35%,优于其他基线方法。此外,实验结果表明,EventFace在光照退化情况下表现出更强的鲁棒性,并且学习到的表示具有更低的模板可重构性,从而提高了隐私保护能力。

🎯 应用场景

该研究成果可应用于光照条件恶劣或需要保护隐私的场景下的人脸识别,例如夜间监控、智能门锁、身份验证等。基于事件相机的人脸识别技术在这些场景下具有独特的优势,能够提供更安全、更可靠的身份识别服务。未来,该技术有望在安防、金融、医疗等领域得到广泛应用。

📄 摘要(原文)

Event cameras offer a promising sensing modality for face recognition due to their inherent advantages in illumination robustness and privacy-friendliness. However, because event streams lack the stable photometric appearance relied upon by conventional RGB-based face recognition systems, we argue that event-based face recognition should model structure-driven spatiotemporal identity representations shaped by rigid facial motion and individual facial geometry. Since dedicated datasets for event-based face recognition remain lacking, we construct EFace, a small-scale event-based face dataset captured under rigid facial motion. To learn effectively from this limited event data, we further propose EventFace, a framework for event-based face recognition that integrates spatial structure and temporal dynamics for identity modeling. Specifically, we employ Low-Rank Adaptation (LoRA) to transfer structural facial priors from pretrained RGB face models to the event domain, thereby establishing a reliable spatial basis for identity modeling. Building on this foundation, we further introduce a Motion Prompt Encoder (MPE) to explicitly encode temporal features and a Spatiotemporal Modulator (STM) to fuse them with spatial features, thereby enhancing the representation of identity-relevant event patterns. Extensive experiments demonstrate that EventFace achieves the best performance among the evaluated baselines, with a Rank-1 identification rate of 94.19% and an equal error rate (EER) of 5.35%. Results further indicate that EventFace exhibits stronger robustness under degraded illumination than the competing methods. In addition, the learned representations exhibit reduced template reconstructability.