SpectraIrisPAD: Leveraging Vision Foundation Models for Spectrally Conditioned Multispectral Iris Presentation Attack Detection

📄 arXiv: 2512.06103v1 📥 PDF

作者: Raghavendra Ramachandra, Sushma Venkatesh

分类: cs.CV

发布日期: 2025-12-05

备注: Accepted in IEEE T-BIOM


💡 一句话要点

SpectraIrisPAD:利用视觉基础模型进行光谱条件下的多光谱虹膜呈现攻击检测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虹膜识别 呈现攻击检测 多光谱成像 视觉Transformer 对比学习

📋 核心要点

  1. 现有虹膜PAD方法在多光谱数据利用和泛化能力上存在不足,难以应对新型攻击。
  2. SpectraIrisPAD利用DINOv2 ViT骨干网络,结合光谱位置编码和对比学习,提取判别性特征。
  3. MSIrPAD数据集包含多种攻击类型,实验表明SpectraIrisPAD优于现有方法,提升了鲁棒性。

📝 摘要(中文)

虹膜识别是公认的最准确的生物识别方式之一。然而,其在现实应用中日益广泛的部署引发了对其易受呈现攻击(PAs)影响的重大担忧。有效的呈现攻击检测(PAD)对于确保基于虹膜的生物识别系统的完整性和安全性至关重要。虽然传统的虹膜识别系统主要在近红外(NIR)光谱中运行,但跨多个NIR波段的多光谱成像提供了互补的反射信息,可以增强PAD方法的泛化能力。在这项工作中,我们提出了SpectraIrisPAD,一种用于鲁棒多光谱虹膜PAD的新型基于深度学习的框架。SpectraIrisPAD利用配备可学习光谱位置编码、token融合和对比学习的DINOv2视觉Transformer(ViT)骨干网络,以提取判别性的、特定于波段的特征,从而有效地将真实样本与各种欺骗伪影区分开来。此外,我们引入了一个新的综合数据集Multispectral Iris PAD(MSIrPAD),其中包含各种PAI,使用定制设计的多光谱虹膜传感器在五个不同的NIR波长(800 nm、830 nm、850 nm、870 nm和980 nm)下捕获。该数据集包括18,848张虹膜图像,涵盖八个不同的PAI类别,包括五个纹理隐形眼镜、打印攻击和基于显示的攻击。我们根据未见过的攻击评估协议进行了全面的实验,以评估所提出方法的泛化能力。SpectraIrisPAD在所有性能指标上始终优于几种最先进的基线,证明了在检测各种呈现攻击方面的卓越鲁棒性和泛化能力。

🔬 方法详解

问题定义:现有的虹膜呈现攻击检测方法主要集中在近红外光谱,并且在面对新的攻击方式时泛化能力不足。它们难以充分利用多光谱虹膜图像中不同波段提供的互补信息,导致检测性能下降。

核心思路:本文的核心思路是利用视觉基础模型(DINOv2 ViT)强大的特征提取能力,并结合光谱信息,学习到更具判别性的虹膜特征表示。通过引入可学习的光谱位置编码,使模型能够感知不同波段之间的差异,并通过token融合和对比学习,增强模型对不同攻击类型的区分能力。

技术框架:SpectraIrisPAD框架主要包含以下几个模块:1) 多光谱虹膜图像输入;2) DINOv2 ViT骨干网络,用于提取图像特征;3) 可学习的光谱位置编码模块,将光谱信息融入特征表示;4) Token融合模块,整合不同波段的特征;5) 对比学习模块,用于区分真实虹膜和攻击样本;6) 分类器,用于最终的攻击检测。

关键创新:该方法最重要的创新点在于将视觉基础模型DINOv2 ViT应用于多光谱虹膜PAD任务,并设计了专门的光谱位置编码模块,使模型能够有效地利用多光谱信息。此外,对比学习的引入进一步增强了模型的判别能力。

关键设计:光谱位置编码采用可学习的嵌入向量,每个波段对应一个嵌入向量,与ViT提取的token特征相加。Token融合模块使用注意力机制,自适应地融合不同波段的特征。对比学习损失函数采用InfoNCE损失,鼓励模型将真实虹膜样本拉近,将攻击样本推远。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MSIrPAD数据集上进行了大量实验,结果表明SpectraIrisPAD在各种性能指标上均优于现有最先进的基线方法。尤其是在未见过的攻击评估协议下,SpectraIrisPAD表现出更强的泛化能力和鲁棒性,证明了其在实际应用中的潜力。具体性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于各种需要高安全性的虹膜识别系统,例如金融支付、身份验证、门禁系统等。通过提高虹膜识别系统对呈现攻击的抵抗能力,可以有效防止欺诈行为,保护用户隐私和财产安全。未来,该技术还可以扩展到其他生物特征识别领域,例如人脸识别和指纹识别。

📄 摘要(原文)

Iris recognition is widely recognized as one of the most accurate biometric modalities. However, its growing deployment in real-world applications raises significant concerns regarding its vulnerability to Presentation Attacks (PAs). Effective Presentation Attack Detection (PAD) is therefore critical to ensure the integrity and security of iris-based biometric systems. While conventional iris recognition systems predominantly operate in the near-infrared (NIR) spectrum, multispectral imaging across multiple NIR bands provides complementary reflectance information that can enhance the generalizability of PAD methods. In this work, we propose \textbf{SpectraIrisPAD}, a novel deep learning-based framework for robust multispectral iris PAD. The SpectraIrisPAD leverages a DINOv2 Vision Transformer (ViT) backbone equipped with learnable spectral positional encoding, token fusion, and contrastive learning to extract discriminative, band-specific features that effectively distinguish bona fide samples from various spoofing artifacts. Furthermore, we introduce a new comprehensive dataset Multispectral Iris PAD (\textbf{MSIrPAD}) with diverse PAIs, captured using a custom-designed multispectral iris sensor operating at five distinct NIR wavelengths (800\,nm, 830\,nm, 850\,nm, 870\,nm, and 980\,nm). The dataset includes 18,848 iris images encompassing eight diverse PAI categories, including five textured contact lenses, print attacks, and display-based attacks. We conduct comprehensive experiments under unseen attack evaluation protocols to assess the generalization capability of the proposed method. SpectraIrisPAD consistently outperforms several state-of-the-art baselines across all performance metrics, demonstrating superior robustness and generalizability in detecting a wide range of presentation attacks.